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内 容 拓 要 





这 是 一 本 深入 浅 出 且 极 定 趣 味 的 深度 学 习 入 门 书 。 本 书 选 取 深度 学 
习 近 年 来 最 重大 的 突破 之 一 AlphaGo， 将 其 背后 的 技术 和 原理 九 娓 道 
来 ， 并 配合 一 套 基 于 BetaGo 的 开源 代码 ， 带 领 读者 从 零 开 始 一 步 步 实 
现 目 己 的 “AlphaGo”。 本 书 侧重 实践 ， 深 入 浅 出 ， 记 本 解 牛 般 地 将 深度 
学 习 和 AlphaGo 这 样 深奥 的 话题 变 得 平易 近 人 、 触 手 可 及 ， 内 容 非 第 精 


Sy 
0。 





全 书 共 分 为 3 个 部 分 : 第 一 部 分 介绍 机 器 学 习 和 围棋 的 基础 知识 ， 
并 构建 一 个 最 简 围 棋 机 器 人 ， 作 为 后 面 章节 内 容 的 基础 ， 第 二 部 分 分 层 
次 深入 介绍 AljphaGo 背 后 的 机 器 学 习 和 深度 学 习 技术 ， 包 括 树 搜索 、 神 
经 网 络 、 深 度 学 习 机 器 人 和 强化 学 习 ， 以 及 强化 学 习 的 几 个 高 级 技巧 ， 
包括 策略 梯度 、 价 值 评估 方法 、 演 员 - 评 价 方法 3 类 技术 ; 第 三 部 分 将 
前 面 两 部 分 准备 好 的 知识 集成 到 一 起 ， 并 最 终 引 导读 者 实现 自己 的 
AlphaGo， 以 及 改进 版 AlphaGo Zero。 读 完 本 书 之 后 ， 读 者 会 对 深度 学 
习 这 个 学 科 以 及 AlphaGo 的 技术 细节 有 非常 全 面 的 了 解 ， 为 进一步 深入 
钻研 AI 理论 、 拓 展 AI 应 用 打下 民 好 基础 。 








本 书 不 要 求 读者 对 AI 或 围棋 有 任何 了 解 ， 只 需要 了 解 基本 的 Python 
语法 以 及 基础 的 线性 代数 和 微 积分 知识 。 本 书 适合 广大 在 校 学 生 、 技 术 
人 员 ， 以 及 所 有 对 AI、 深 度 学 习 或 围棋 感 兴 趣 的 读者 。 


a 人 有 有 划 下 
届 ， 


围棋 是 中 华 传统 文化 的 一 颗 明 球 ， 属 于 鞭 棋 书画 四 艺 之 一 。 


围棋 是 最 古老 的 棋 类 游戏 之 一 ， 相 传 为 缉 帝 所 创 ， 早 在 春秋 、 战 国 
时 期 ，《 左 传 》《 论 语 》 中 就 有 记载 。 从 古诗 中 我 们 能 感受 到 历代 以 来 
围棋 深入 人 心 的 程度 : “和 楚 江 巫 峡 半 云 雨 ， 清 咎 玻 帘 看 奔 棋 ”〈 杜 
甫 ) ,“ 别 后 竹 窗 风 雪 夜 ， 一 灯 明 蜡 罗 吴 图 ”〈 杜 牧 ) ,，“ 吕 轩 两 贷 分 日 
黑 ， 一 椰 何 处 有 亏 成 ”〈 王 安 石 ) ,，“ 且 共 江 人 约 ， 松 轩 雪 夜 棋 ”( 竺 
准 ) ,，“ 环 忧 清 乐 在 酝 棋 ， 仙 子 精 功 岁 未 宅 ”〈 宋 徽宗 ) ,“ 随 缘 冷 暖 开 
怀 酒 ， 懒 算 输 专 信 手 棋 ”( 唐 寅 ) 。 


围棋 也 是 世界 上 最 复杂 的 棋 类 游戏 之 一 。 在 国际 公认 的 几 大 棋 类 
中 ， 围 棋 在 复杂 度 上 独占 鳌头 ， 并 且 远 超 同 俐 。 正 如 本 书 中 所 介绍 的 ， 
围棋 的 每 一 回合 都 和 变 万 化 ， 因 此 潜在 的 可 选 棋局 的 数量 极其 庞 
大 ,“ 远 远 超 过 宇宙 中 所 有 粒子 的 总 和 ”。 因 此 用 传统 的 方法 来 预测 围棋 
的 变化 是 几乎 不 可 能 的 事情 。 其 他 几 大 棋 类 ， 如 国际 象棋 、 中 国 象棋 
等 ， 也 有 类 似 的 特点 ， 但 围棋 与 它们 相 比 有 痢 数 量 级 的 逆 沟 。 例 如 ， 国 
际 象棋 平均 每 回合 的 可 能 变化 大 概 有 30 种 ， 而 围棋 平均 每 回合 的 可 能 变 
化 有 250 种 左右 。 如 果 只 提前 预测 5 步 棋 ， 国 际 象 棋 需 要 预测 大 概 2400 万 
种 变化 ， 而 围棋 则 需要 处 理 约 1 万 亿 种 变化 。 由 于 复杂 上 度 的 增长 是 呈 指 
数 级 的 ， 因 此 多 预测 几 步 ， 两 者 变化 数 的 差别 就 会 变 成 天 文 数 字 。 

















我 们 从 人 工 智 能 〈AI) 在 棋 类 游戏 上 “ 攻 城 略 地 ”的 历史 中 ， 也 可 以 
看 出 这 种 差别 。1997 年 ，IBM 的 计算 机 深 私 利用 经 典 AI 算 法 历史 性 地 成 
胜 了 国际 象棋 世界 冠军 加 里 . 卡 斯 帕 罗 夫 (Garry Kasparov) ， 攻 死 了 西 
方 世 界 的 “最 后 一 城 ”。2006 年 ， 在 首次 中 国 象 棋 人 机 大 战 中 ， 超 级 计算 
机 “天 梭 ” 以 5.5:4.5 战 胜 了 5 位 象棋 大 师 。 人 至 此 围棋 成 为 人 类 剩 下 的 “最 后 
一 座 堡 对”， 而 这 座 堡垒 又 坚守 了 了 10 年。 研究 界 和 AI 业 界 几 十 年 的 尝试 
都 没 能 突破 ， 这 让 人 们 产生 了 一 个 共识 : 如 果 还 限于 经 典 AI 算 法 的 汞 篇 
之 中 ， 那 么 即使 配备 再 高 的 计算 力也 无 法 突破 围棋 这 座 您 垒 。 从 这 一 点 
上 来 说 ， 围 棋 是 独一无二 的 。 这 也 是 本 书 选用 围棋 作为 核心 话题 的 原 
因 。 


直到 2016 年 3 月 AlphaGo 横 空 出 世 ， 战 胜 了 围棋 世界 冠军 李 世 石 ， 围 
棋 这 座 堡垒 才 终 于 宣告 失守 。 虽 然 这 也 要 归功 于 近年 来 硬件 水 平 的 不 断 
提高 和 分 布 式 计算 的 不 断 成 熟 ， 但 最 重要 的 是 ， 如 果 没 有 AlphaGo 革 命 
性 创新 的 深度 学 习 算法 ， 超 越 人 类 水 准 的 围棋 AI 是 不 可 能 实现 的 。 


那么 AlphaGo 到 底 做 了 怎样 惊天 动 地 的 突破 ， 才 使 得 人 工 智 能 最 终 
人 欧 上 围棋 的 题 峰 呢 ? 这 也 正 是 本 书 的 核心 内 容 一 一 深度 学 习 算 法 。 
AlphaGo 在 深度 学 习 上 做 出 了 两 次 突破 。 第 一 次 突破 ， 即 AlphaGo 的 第 
一 个 版 本 ， 是 将 几 种 传统 机 器 学 习 算 法 与 简单 的 深度 学 习 算 法 的 创造 性 
的 集成 ， 产 生 了 “一 加 一 大 于 二 ”的 效果 。AlphaGo 采 用 围棋 职业 高 手 的 
棋谱 作为 基础 数据 ， 以 此 训练 神经 网 络 (经典 机 器 学 习 到 这 里 就 止步 
了 ) ， 然 后 再 进行 强化 学 习 ， 通 过 自我 对 歼 来 增强 性 能 ， 最 后 在 对 弈 的 
过 程 中 ， 把 前 面 的 神经 网 络 用 在 经 典 树 搜索 算法 中 指导 下 棋 。 这 种 监督 








学 习 与 强化 学 习 的 有 机 结合 ， 正 是 它 产 生 突 破 的 关键 点 。 第 二 次 突破 ， 
也 就 是 AlphaGo Zero， 对 上 一 个 版 本 做 了 巨 量 的 减法 ， 完 全 抛 诫 了 人 类 
棋谱 数据 ， 也 完全 抛弃 了 人 类 对 围棋 的 理解 (如 动 争 之 类 的 围棋 专属 特 
征 ) ， 从 零 开 始 ， 通 过 强化 学 习 来 目 我 进化 ， 重 新 发 现 所 有 的 围棋 技 
巧 。 由 于 这 个 全 新 的 架构 更 加 简单 ， 更 加 直接 ， 在 摆脱 人 类 规则 的 影响 
后 ， 它 产生 了 自己 独 有 的 洞察 力 。 并 且 由 于 引入 了 几 项 前 沿 的 深度 学 习 
技术 《如 残 差 网 络 等 ) ， 它 的 学 习 效 率 比 上 一 个 版 本 更 高 ， 最 终 达 到 了 
从 未 有 过 的 棋 力 水 平 。 此 外 ， 这 和 套 算 法 泛 用 性 极 强 ， 很 容易 进一步 扩展 
应 用 到 其 他 的 领域 。 实 际 上 在 翻译 本 书 时 ，AlphaGo 已 经 有 了 更 加 汉化 
的 下 一 代 版 本 AlphaZero， 它 很 快 就 学 会 了 3 种 不 同 的 棋 类 围棋、 国际 
象棋 和 日 本 将 棋 。 








人 工 智 能， 尤其 是 近年 来 大 热 的 深度 学 习 ， 总 体 来 说 是 俩 数学 和 理 
论 的 。 几 本 经 典 书 籍 都 是 以 数学 推导 为 主 ， 话 题 全 面 ， 公 式 量 大 ， 但 阅 
读 难 度 较 局 ， 并 不 是 最 适合 作为 入 门 教程 。 但 要 想 写 出 浅显 易 懂 的 内 容 
来 ， 就 必须 抛弃 很 多 数学 推导 ， 并 更 多 地 讨论 实践 的 内 容 。 本 书 束 是 一 
本 非常 好 的 实践 性 入 门 介绍 。 它 采用 Keras 深 度 学 习 框 架 ， 用 Python 来 实 
现代 码 ， 并 选取 了 计算 机 围棋 这 个 既 激 动人 心 义 浅显 易 懂 的 诛 题 。 











如 果 要 用 一 个 词 来 总 结 本 书 的 特色 ， 我 认为 是 “应 丁 解 牛 "。 本 书 虽 
然 没 有 深入 讨论 太 多 理论 细 市 ， 但 基本 上 将 AlphaGo 背 后 所 有 的 理论 知 
识 都 窗 盖 了 。 对 这 样 蜗 深 的 课题 进行 如 此 全 面 的 介绍 ， 需 要 非常 细致 的 
层次 划分 ， 才 能 逐步 深入 ， 产 生 深 入 浅 出 的 效果 。 


本 书 第 一 部 分 介绍 基础 知识 ， 分 别 是 机 器 学 习 概 述 、 围 棋 


由 
说 
二 
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以 及 围棋 软件 的 基础 框架 ， 这 部 分 内 容 愉 好 能 让 我 们 在 零 基础 的 情况 下 
开发 出 一 个 最 基本 的 围棋 机 器 人 来 。 这 是 第 一 个 层次 。 


第 二 部 分 对 AlphaGo 与 AlphaGo Zero 背 后 的 技术 做 了 划分 ， 并 且 按 
照 难 易 度 巧妙 地 进行 了 合理 的 安排 。 树 搜索 、 神 经 网 络 、 数 据 预 处 理 、 
代理 开发 即 部 署 、 强 化 学 习 这 几 个 话题 ， 层 层 深 入 ， 使 我 们 在 阅读 的 过 
程 中 渐渐 对 AlphaGo 有 了 更 清晰 的 认 知 。 并 且 每 一 草 我 们 都 能 开发 出 一 
个 更 强大 的 围棋 机 器 人 来 ， 从 而 可 以 直接 看 到 自己 的 进步 。 这 部 分 最 后 
三 章 分 别 介 绍 了 一 项 强化 学 习 的 高 级 技巧 ， 它 们 也 是 AlphaGo 和 
AlphaGo Zero 必 不 可 少 的 组 成 部 分 。 这 是 第 二 个 层次 。 








第 三 部 分 把 前 面 介 绍 的 所 有 内 容 集成 到 一 起 ， 最 终 开 发 出 我 们 目 己 
的 AljphaGo 和 AlphaGo Zero。 这 是 第 三 个 层次 。 





读 完 本 书 ， 我 们 不 但 会 对 围棋 AI 这 个 课题 有 广泛 而 深入 的 理解 ， 而 
且 能 够 掌握 并 目 己 实现 最 前 治 的 技术 成 采 。 我 们 不 仅 会 有 丰富 的 实践 体 
验 ， 也 会 对 其 背后 的 理论 有 初步 的 思考 与 把 握 。 打 好 坚实 的 基础 ， 再 去 
阅读 更 深入 的 理论 性 著作 ， 或 者 尝试 开 必 AI 在 更 多 领域 的 应 用 ， 就 变 得 
更 清晰 而 轻松 了 。 因 此 我 强烈 推荐 在 阅读 儿 本 经 典 理论 著作 之 前 ， 快 速 
阅读 本 书 。 

















非常 感谢 人 民 邮 电 出 版 社 杨 海 玲 编辑 ， 是 她 的 邀请 让 我 有 机 会 翻译 
本 书 ， 也 让 我 在 这 个 过 程 中 学 到 了 许多 知识 。 虽 然 我 本 科 毕 业 设 计 做 的 
是 机 器 学 习 ， 但 毕业 之 后 成 了 典型 的 程序 员 ， 再 也 没有 深入 接触 过 这 个 
领域 了 。 这 次 翻译 让 我 能 够 再 次 深入 了 解 这 个 目 己 阔别 已 久 的 领域 ， 也 











为 我 打开 了 通 向 新 世界 的 一 扇 窗 。 经 过 这 些 年 的 发 展 ， 机 器 学 习 已 经 变 
得 前 所 未 有 的 强大 ， 实 在 是 令 人 蔚然 开 度 、 和 耳目 一 新 。 对 我 个 人 来 说 ， 
本 书 是 最 佳 的 人 工 乔 能 和 深度 学 习 入 门 书 ， 和 希望 读者 也 能 有 这 种 体验 。 





由 于 我 的 理论 基础 并 不 坚实 ， 翻 译 与 写作 水 平 也 有 限 ， 因 此 书 中 难 
免 会 出 现 翻译 不 当 或 表达 不 畅 的 情况 ， 和 希望 读者 访 解 并 指正 。 


序 


对 我 们 AlphaGo 团 队 的 成 员 来 说 ，AlphaGo 的 开发 经 历 是 我 们 一 生 
中 难得 的 奇遇 。 与 那些 伟大 的 探险 相似 ， 它 也 开始 于 脚下 的 一 小 步 : 用 
人 类 围棋 高 手 的 棋谱 来 训练 一 个 简单 的 卷 积 神经 网 络 。AlphaGo 引 领 了 
近年 来 机 器 学 习 领 域 的 几 次 标志 性 突破 ， 并 被 爆 出 一 系列 令 人 难忘 的 大 
新 闻 ， 包 括 与 攀 府 、 李 世 石 、 柯 洁 等 围棋 大 师 的 对 决 。 这 一 系列 比赛 为 
围棋 带 来 了 深远 的 影响 ， 改 变 了 围棋 在 全 世界 范围 内 的 格局 ， 而 且 也 让 
更 多 人 了 解 并 喜欢 上 了 人 工 智能 这 个 领域 ， 这 些 都 令 我 们 感到 自豪 。 











但 读者 可 能 会 问 ， 为 什么 要 关注 游戏 呢 ? 答案 是 ， 儿 童 通过 游戏 来 
了 解 真实 世界 ， 与 之 类 似 ， 机 器 学 习 研 究 者 也 通过 游戏 来 训练 人 工 智 能 
软件 。 沿 看 这 个 脉络 ，DeepMind 公 司 的 整体 策略 也 是 用 游戏 来 模拟 真 
实 世 界 。 而 AlphaGo 项 目 正 是 这 个 策略 的 一 部 分 。 这 能 帮助 我 们 更 好 地 
研究 人 工 智能 ， 训 练 学 习 代 理 ， 以 期 望 将 来 的 茶 一 天 ， 我 们 能 构建 呐 正 
的 通用 学 习 系统 ， 可 以 解决 真实 世界 中 最 复杂 的 问题 。 


诡 贝 尔 经 济 学 奖 获 得 者 Daniel Kahnemann 在 他 关于 人 类 认 知 的 《 思 
考 ， 快 与 慢 》 一 书 中 描述 了 两 种 思维 方式 ， 而 AlphaGo 的 工作 方式 正 是 
类 似 于 这 两 种 思维 方式 。 在 AlphaGo 中 ， 慢 的 思考 模式 是 通过 一 种 名 为 
蒙特 卡 洛 树 搜索 (Monte Carlo Tree Search ) 的 算法 来 实现 的 。 对 于 某 个 
棋盘 布局 ， 这 个 算法 可 以 通过 扩展 一 个 游戏 树 来 规划 下 一 步 动作 。 游 戏 
树 代 表 了 未 来 所 有 可 能 的 落 子 动作 与 回应 动作 。 但 由 于 围棋 大 约 有 

















10170《 即 1 后 面 有 170 个 0) 种 可 能 的 棋盘 布局 ， 因 此 要 搜索 全 部 的 可 能 
动作 序列 ， 其 实 是 不 可 能 实现 的 。 为 了 解决 这 个 问题 ， 需 要 缩减 搜索 衬 
间 ， 我 们 给 壹 特 卡 洛 树 搜 索 配套 了 一 个 深度 学 习 组 件 一 一 训练 两 个 神经 
网 络 ， 其 中 一 个 用 来 预测 对 罕 双方 的 获胜 概率 ， 力 一 个 用 来 预测 最 有 项 
望 获胜 的 落 子 动作 。 





AlphaGo 的 更 新 版 AlphaZero， 依 照 强化 学 习 的 原理 ， 完 全 靠 自 我 对 
歼 来 进行 学 习 。 这 样 就 不 再 需要 任何 人 工 训 练 数据 了 。 它 从 零 开 始 学 习 
下 围棋 (以 及 国际 象棋 、 将 棋 每 ) ， 在 与 自己 对 奔 的 学 习 过 程 中 ， 它 各 
党 能 独立 发 现 ( 之 后 再 抛弃 〉 人 类 棋 手 几 百 年 来 积累 下 来 的 策略 ， 也 独 
并 地 创造 了 许多 属于 它 自己 的 独特 策略 。 











在 本 书 的 阅读 过 程 中 ， 两 位 作者 Max Pumperla 和 Kevin Ferguson 将 
引领 读者 踏 上 从 AlphaGo 到 它 的 后 期 扩展 的 美好 旅程 。 读 完 本 书 之 后 ， 
读者 不 仅 能 够 了 解 如 何 实现 AlphaGo 风 格 的 围棋 引擎 ， 还 能 对 现代 人 工 
智能 算法 最 重要 的 几 个 组 成 部 分 一 一 蒙特 卡 洛 树 搜索 、 深 度 学 习 和 强化 
学 习 ， 有 深入 的 理解 与 实践 。 作 者 精心 地 组 织 了 这 几 个 人 工 智能 话题 ， 
并 选取 围棋 作为 实践 案例 ， 使 之 既 语 有 趣味 ， 又 浅显 易 懂 。 除 此 之 外 ， 
读者 还 能 学 会 围棋 (这 个 人 类 有 史 以 来 及 明 的 最 美丽 、 最 具 挑 战 性 的 棋 
类 游戏 之 一 ) 的 基础 知识 。 








为 外 ， 本 书 从 一 开始 就 构建 了 一 个 可 以 运行 的 、 简 单 的 围棋 机 右 
人 ， 并 随 着 本 书 内 容 对 它 进行 逐步 的 强化 : 从 完全 随机 地 选择 动作 ， 逐 
渐进 化 成 一 个 复杂 的 、 有 和 目 我 学 习 能 力 的 围棋 AI。 作 者 对 基础 概念 做 了 
精彩 的 曾 述 ， 再 加 上 可 执行 的 Python 代码 ， 带 着 读者 一 步 一 步 地 前 进 。 








必要 时 ， 他 们 也 会 深入 阐述 数据 格式 、 部 署 和 云 计算 等 细节 话题 ， 使 读 
者 可 以 把 围棋 机 器 人 真正 地 运行 起 来 ， 并 享受 春 棋 的 乐趣 。 


总 而 言 之 ， 本 书 可 读 性 、 趣 味 性 都 很 高 ， 是 对 现代 人 工 镶 能 和 机 器 
学 习 的 引人入胜 的 介绍 。 它 成 功 地 把 AlphaGo 这 个 人 工 智能 领域 中 最 激 
动人 心 的 里 程 碑 之 一 ， 转 化 为 一 门 优秀 的 入 门 课程 。 循 着 这 条 道路 学 习 
下 去 的 读者 ， 将 能 够 掌握 足够 的 基础 知识 ， 理 解 和 构建 现代 AI 系统 ， 并 
可 以 在 任何 需要 时 结合 “快速 "模式 匹配 与 “ 慢 速 "规划 的 问题 应 用 这 些 知 
识 。 因 为 “ 快 思考 ”与 “ 慢 思 考 ” 正 是 基本 认 知 能 力 的 基础 。 











Thore Graepel 


DeepMind 人 研究 科学 家 ， 代 表 DeepMind 的 AlphaGo 团 队 


万 
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2016 年 初 ， 当 AlphaGo 第 一 次 上 新 闻 时 ， 我 们 为 计算 机 围棋 的 这 个 
突破 性 进展 感到 无 比 激 动 。 那 时 人 们 普遍 认为 ， 围 棋 的 人 工 智能 要 达到 
人 类 级 别 ， 至 少 还 得 等 10 年 。 我 们 一 场 不 漏 地 跟踪 比赛 进程 ， 甚 至 熬夜 
观看 赛事 直播 。 当 然 ， 我 们 有 许多 伙伴 一 一 AlphaGo 与 枢 糜 、 李 世 石 和 
柯 洁 等 围棋 大 师 的 对 决 ， 吸 引 了 全 球 数 以 百 万 计 的 观众 。 


AlphaGo 横 空 出 世 之 后 不 久 ， 我 们 就 着 手 创 建 名 为 BetaGo 的 小 型 开 
源 库 ， 以 验证 我 们 是 不 是 能 够 实现 AlphaGo 的 一 些 核心 运行 机 制 。 
BetaGo 项 目的 目标 ， 是 同感 兴趣 的 开发 人 员 展 示 AlphaGo 背 后 的 技术 。 
当然 ， 我 们 认识 到 自己 没有 足够 的 资源 时间、 计算 能 力 或 智能 ) 来 与 
DeepMind 那 令 人 难以 置信 的 成 就 去 竞争 ， 但 构建 属于 自己 的 围棋 机 器 
人 ， 本 丑 就 是 一 件 很 有 趣 的 事情 。 











从 那 以 后 ， 我 们 有 六 在 许多 场合 讨论 计算 机 围棋 的 话题 。 由 于 我 们 
都 是 围棋 爱好 者 ， 同 时 也 是 机 器 学 习 从 业者 ， 因 此 有 时 候 很 容易 筷 记 公 
众 并 不 像 我 们 这 样 紧密 跟踪 新 闻 事件 ， 他 们 从 新 闻 事 件 中 得 到 的 信息 是 
很 少 的 。 事 实 上 ， 有 点 儿 讽 刺 的 是 ， 虽 然 有 数 百 万 人 观看 比赛 ， 但 至 少 
从 我 们 的 角度 来 看 ， 观 众 大 致 分 属于 两 个 脱节 的 团体 : 





。 了 解 并 喜欢 围棋 的 人 ， 但 对 机 器 学 习 知 之 甚 少 ; 





。 了 解 和 欣 党 机 器 学 习 的 人 ,但 几乎 不 了 解围 棋 规 则 。 


对 外 行 来 说 ， 机 器 学 习 和 围棋 这 两 门 找 艺 可 能 让 他 们 感到 高 深 英 
训 。 虽 然 在 过 去 几 年 中 ， 有 越 来 越 多 的 软件 开发 人 员 开 始 学习 机 需 学 
习 ， 特 别 是 深度 学 习 ， 但 是 围棋 在 西方 仍然 极 少 人 知晓 。 我 们 认为 这 种 
情况 非常 糟糕 ， 所 以 真 城 地 和 希望 这 本 书 能 够 使 上 述 两 个 团体 更 加 紧密 地 
联系 在 一 起 。 








我 们 坚信 ， 支 撑 AlphaGo 系 统 的 原理 ， 可 以 通过 更 贴近 实践 的 方式 
传授 给 广大 软件 开发 人 员 。 对 围棋 的 至 受 和 理解 ， 来 自 大 量 的 对 穿 和 试 
验 。 这 个 道理 对 机 器 学 习 或 其 他 任何 学 科 和 是 同样 适用 的 。 





如 果 读 者 在 读 完 本 书后 ， 能 体会 到 我 们 对 围棋 或 者 对 机 顺 学 习 的 热 
情 《〈 和 希望 两 者 都 有 ! ) ， 那 么 本 书 的 任务 束 完 成 了 。 如 果 在 此 之 上 ， 你 
还 能 学 会 如 何 构建 和 部 获 围 棋 机 右 人 ， 并 自己 进行 试验 ， 那 么 更 多 有 趣 
的 人 工 乔 能 应 用 也 会 回 你 打开 大 门 。 期 等 你 至 受 本 书 的 阅读 过 程 ! 








资源 与 文 持 


本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/)〉 为 您 提供 相 
关 资 源 和 后 续 服务 。 


配套 资源 


本 书 提供 本 书 源 代码 。 要 获得 以 上 配套 资源 ， 请 在 异步 社区 本 书页 
而 中 点 击 轿 33 到 yyj 寻 到 下 载 界面 ， 按 提示 进行 操作 即 可 。 注意: 
为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相关 提示 ， 要 求 输入 提取 码 进行 
验证 。 





作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 下 
漏 。 欢 迎 您 将 用 现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 


当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 
点 击 “ 提 区 勘误 ”， 输 入 勘误 信息 ， 点 击 “ 提 区 ?按钮 即 可 。 本 书 的 作者 和 
编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 接受 后 ， 您 将 获 赠 寞 步 社区 的 
100 积 分 。 积 分 可 用 于 在 异步 社区 部 换 优 囊 券 、 样 书 或 奖品 。 














与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 
如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 
标题 中 注 明 本 书 书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 


如 有 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 
审 校 等 工作 ， 可 以 发 邮件 给 我 们 ， 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社 
区 在 线 投稿 (直接 访问 www.epubit.com/selfpublish/ submission 即 可 ) 。 





如 果 您 来 自学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 
版 的 其 他 图 书 ， 也 可 以 及 邮件 给 我 们 。 


如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行 
为 ， 包 括 对 图 书 全 部 或 部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 
的 链接 通过 邮件 发 给 我 们 。 您 的 这 一 举动 是 对 作者 权益 的 保护 ， 也 是 我 








们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 
关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专 业 图 书社 区 ， 致 力 于 出 版 精 
癌 IT 图 书 和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 
于 2015 年 8 月 ， 提 供 大 量 精品 开 图 书 和 电子 书 ， 以 及 高 品质 技术 文章 和 
视频 课程 。 更 多 详情 请 访问 异步 社区 官网 https://www.epubit.com。 














“异步 图 书 ” 是 由 异步 社区 编辑 团队 集 划 出 版 的 精品 开 专 业 图 书 的 品 
牌 ， 依 托 于 人 民 邮 电 出 版 社 近 40 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团 
队 ， 相 关 图 书 在 封面 上 印 有 异步 图 书 的 LOGO。 腊 步 图 书 的 出 版 领域 包 
括 软 件 开 及 、 大 数据 、 人 工 智能 、 测 试 、 前 端 、 网 络 技术 等 。 





异步 社区 
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我 们 要 感谢 Manning 出 版 社 的 整个 团队 。 有 他 们 ， 这 本 书 才 得 以 出 
版 。 其 中 ， 要 特别 感谢 两 位 正 菩 业 业 的 编辑 : Marina Michaels， 帮 助 我 
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本 书 旨 在 通过 一 个 实用 而 有 趣 的 示例 来 介绍 现代 机 器 学 习 : 构建 一 
个 能 够 进行 对 奔 的 围棋 AI。 读 完 前 3 章 后 ， 读 者 束 可 以 开发 出 一 个 可 运 
行 的 围棋 AI 程序 ， 尽 管 它 弱 得 可 怜 。 之 后 ， 每 一 章 都 会 介绍 一 种 新 方法 
来 改进 围棋 AI。 读 者 可 以 通过 反复 试验 来 了 解 每 一 种 方法 的 优 务 与 局 
限 。 在 最 后 几 章 ， 前 面 所 有 的 积累 将 会 达到 一 个 顶峰 : 将 展示 AlphaGo 
和 AlphaGo Zero 如 何 把 前 面 介 绍 的 所 有 技术 集成 于 一 体 ， 造 束 强 大 到 令 
人 难以 置信 的 AI。 











目标 读者 


本 书 适合 于 那些 想 要 尝试 机 器 学 习 算法 ， 但 相 比 数学 内 容 来 襄 ， 更 
喜欢 实践 内 容 的 软件 开发 人 员 。 本 书 假 定 读者 已 经 掌握 了 Python 的 基础 
知识 。 当 然 ， 书 中 的 算法 也 可 以 用 其 他 现代 语言 来 实现 。 本 书 不 要 求 读 
者 有 任何 围棋 基础 。 如 果 你 喜欢 的 是 国际 象棋 或 其 他 棋 类 游戏 ， 也 可 以 
将 本 书 介绍 的 方法 与 技巧 应 用 到 这 些 棋 类 游戏 中 。 当 然 ， 如 果 你 是 围棋 
爱好 者 ， 那 么 观察 自己 开发 的 围棋 机 器 人 学 会 下 棋 的 过 程 ， 将 会 非常 开 
心 ! 两 位 作者 都 深 有 同感 。 








学 习 路 线 图 


本 书 分 为 3 部 分 ， 共 包括 14 章 和 5 个 附录 。 
第 一 部 分 介绍 本 书 涉 及 的 主要 概念 。 


第 1 章 人 简明 扼要 地 介绍 人 工 智能 的 儿 个 分 支 领 域 ， 人 工 乔 能 、 机 器 
学 习 和 深度 学 习 。 我 们 将 解释 这 几 个 领域 之 间 的 关系 ， 以 及 利用 这 
些 领域 中 的 技术 所 能 够 解决 与 无 法 解决 的 问题 。 

第 2 章 介 绍 围棋 的 基本 规则 ， 并 说 明 我 们 能 够 教会 计算 机 哪些 知识 
来 学 习 下 棋 。 

第 3 章 将 使 用 Python 来 实现 于 棋 棋 盘 和 落 子 的 馆 辑 ， 最 终 可 以 进行 
完整 的 对 弈 。 在 本 章 的 最 后 ， 我 们 将 编写 出 最 弱 的 围棋 AI。 











第 二 部 分 介绍 创建 一 个 强大 的 围棋 AI 所 需 的 技术 和 理论 基础 。 我 们 


会 着 重 介 绍 AlphaGo 所 采用 的 三 大 技术 文 柱 : 树 搜索 〈 第 4 章 ) 、 神 经 网 
络 〈 第 5 章 至 第 8 章 ) 、 深 度 学 习 机 器 人 和 强化 学 习 〈( 第 9 章 至 第 12 


章 ) 





O 


第 4 章 概要 介绍 几 种 搜索 和 评估 棋局 序列 的 算法 。 我 们 将 从 简单 的 
极 小 化 极 大 搜索 开始 介绍 ， 然 后 介绍 更 高 级 的 算法 ， 如 ao-8 剪 枝 算 
法 、 蒙 特 卡 洛 树 搜索 等 。 

第 5 章 是 人 工 神 经 网 络 话题 的 实践 性 介绍 。 我 们 将 讲述 如 何 用 
Python 从 零 开 始 实现 一 个 神经 网 络 ， 用 来 预测 手写 的 数字 字符 。 
第 6 章 解释 围棋 数据 与 图 像 数 据 的 共通 特征 ， 并 引 八 优 积 种 经 网 络 
对 沙子 动作 进行 预测 。 从 本 章 开 始 ， 我 们 将 基于 深度 学 习 库 Keras 
来 构建 我 们 的 模型 。 

第 7 章 将 应 用 第 5 章 和 第 6 章 中 学 到 的 实践 知识 来 构建 一 个 由 深度 神 
经 网 络 驱 动 的 围棋 机 器 人 。 我 们 使 用 业余 高 阶 棋 手 的 实 盘 数据 进行 
训练 ， 并 分 析 这 种 方法 的 局 限 性 。 








第 8 章 讲 述 如 何 实现 一 个 围棋 软件 ， 让 人 类 棋 手 能 够 通过 用 户 界 面 
与 围棋 机 器 人 进行 对 大 。 读 者 还 将 学 会 如 何 与 其 他 机 器 人 在 本 地 或 
远程 围棋 服务 器 上 进行 对 研 。 

第 9 章 涵 盖 强 化 学 习 的 基础 知识 ， 并 介绍 如 何在 围棋 中 使 用 它 进行 
自我 对 奔 。 

第 10 章 详细 介绍 策略 梯度 的 概念 。 它 是 改进 第 7 章 中 落 子 动作 预测 
的 关键 方法 。 

第 11 章 展示 如 何 使 用 所 谓 的 价值 评估 方法 来 评估 棋局 。 这 个 方法 是 
一 种 可 以 与 第 4 章 介 绍 的 树 搜索 相 结 合 的 强力 工具 。 

第 12 章 介绍 预测 给 定 棋 局 与 下 一 手 落 子 时 预测 评估 其 长 期 效果 的 技 
巧 。 这 将 有 助 于 我 们 更 有 效 地 选择 下 一 手 落 子 动作 。 








第 三 部 分 是 本 书 的 最 终 部 分 ， 我 们 将 把 之 前 开发 的 所 有 部 件 整合 起 


来 ， 成 为 一 个 接近 AlphaGo 的 应 用 。 


第 13 章 的 内 容 无 论 从 技术 角度 上 看 还 是 从 数学 角度 上 看 ， 都 是 本 书 
的 题 峰 。 我 们 首先 将 讨论 如 何在 围棋 数据 上 训练 神经 网 络 《第 5 章 
至 第 7 草 ) ， 接 着 继续 进行 目 我 对 穿 〈 第 8 章 至 第 11 章 ) ， 最 后 我 们 
将 结合 一 个 更 聪明 的 树 搜 索 方法 (第 4 章 ) ， 创 建 超越 人 类 极限 的 
围棋 机 器 人 。 

第 14 章 古本 书 的 最 后 一 草 ， 描 述 棋盘 游戏 AI 的 最 前 沿 技术 。 我 们 深 
入 探讨 AlphaGo Zero 背 后 的 理论 基础 : 开创 性 地 将 树 搜 索 和 强化 学 
习 相 结合 。 

















在 附录 中 ， 我 们 还 将 涵盖 下 面 儿 个 话题 。 





附录 A 温习 线性 代数 和 微 积 分 的 一 些 基础 知识 ， 并 展示 如 何在 
Python 库 NumPy 中 表示 常用 的 线性 代数 结构 。 
附录 B 介 绍 反 问 传 播 算法 。 这 个 算法 描述 了 大 多 数 神经 网 络 所 采用 


的 学 习 过 程 ， 从 第 5 章 开 始 ， 我 们 就 一 直 需 要 用 到 它 。 附 录 B 会 详 述 
更 多 关于 这 个 算法 的 数学 细节 。 
。 附录 C 为 想 要 更 深入 了 解围 棋 的 读者 提供 一 些 在 线 资 源 。 
。 附录 D 简 要 介绍 如 何在 Amazon Web Services (AWS) 上 运行 围棋 机 
器 人 。 
。 附录 EE 展示 如 何 将 机 器 人 连接 到 流行 的 围棋 服务 器 上 ， 这 样 就 可 以 
与 世界 各 地 的 玩家 进行 对 三 ， 并 检验 自己 的 成 果 了 。 











图 0-1 总 结 了 各 章 对 附录 的 依赖 关系 。 





第 一 部 分 基础 知识 


第 1 章 
走 近 深度 学 习 : 机 串 学 习 入 门 





第 2 章 
围棋 与 机 器 学 习 
第 3 章 
实现 第 一 个 围棋 机 器 人 





第 二 部 分 机 器 学 习 和 游戏 AI 


第 4 章 ©@ 第 5 章 @ 第 9 章 
使 用 树 搜索 下 棋 神经 网 络 入 门 通过 实践 学 习 : 强化 学 习 


OO 第 6 章 @ 第 10 章 
为 围棋 数据 设计 神经 网 络 基于 策略 梯度 的 强化 学 习 











@@ 
Oe 第 7 章 O®@ 第 11 章 
从 数据 中 学 习 : 基于 价值 评估 方法 的 
构建 深度 学 习 机 器 人 强化 学 习 


@@@O 第 8 章 O@ 第 12 章 
实地 部 署 围 棋 机 器 人 基于 演员 -评价 方法 的 强化 学 习 











第 三 部 分 一 加 一 大 于 一 


AlphaGoe: 全 部 集结 


© 
个 第 14 章 
AlphaGo Zero: 
将 强化 学 习 集 成 到 树 搜索 中 


附录 A 2 附录 B © 
数学 基础 反 向 传播 算法 
全 


附录 DD 
附录 C Dd 用 AWS 来 训练 和 部 等 


围棋 程序 与 围棋 服务 器 围棋 程序 与 围棋 服务 器 














附录 EE 
将 机 器 人 发 布 到 OGS 








图 0-1 各 章 对 附录 的 依赖 关系 





关于 源 代码 


本 书包 含 了 许多 有 单独 编写 的 代码 清单 ， 以 及 内 馈 于 文本 之 中 的 行 
内 代码 。 这 些 源 代 码 都 使 用 等 宽 字 体 ， 以 区 别 于 普通 文本 。 在 需要 突出 
显示 代码 更 改 的 时 候 例如 在 已 有 代码 基础 上 增添 新 功能 时 ) ， 我 们 会 
用 粗 体 字 来 展示 。 


大 多 数 情 况 下 ， 我 们 都 把 源 代码 重新 进行 了 格式 化 。 我 们 添加 了 换 
行 符 ， 改 写 了 缩 进 ， 以 适 配 书 本 并 不 充裕 的 页 面 空间 ， 在 极 少数 情况 
下 ， 我 们 会 在 代码 中 使 用 换行 标记 符 〈 轧 ) 。 另 外 ， 如 果 正 文中 对 东 段 
代码 做 出 了 描述 ， 那 我 们 就 会 在 代码 清单 中 做 对 应 的 注释 。 代 码 清 单 中 
还 添加 了 许多 标注 文本 ， 以 突出 重要 的 概念 。 
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马克 斯 由 修 拉 〈Max Pumperla) 就 职 于 Skymind 公 司 ， 是 一 名 专 
只 研究 深度 学 习 的 数据 科学 家 和 工程 师 。 他 是 深度 学 习 平台 Aetros 的 联 
合 创 始 人 。 








纪 文 * 费 格 森 〈Kevin Ferguson) 在 分 布 式 系统 和 数据 科学 领域 拥 
有 18 年 的 工作 经 验 。 他 是 Honor 公 司 的 数据 科学 家 ， 曾 就 职 于 谷歌 和 


Meebo 等 公司 。 


Max 和 Kevin 是 BetaGo 的 共同 创造 者 。BetaGo 是 用 Python 开发 的 极 
少数 开源 围棋 机 器 人 之 一 。 


入 大 


Cn 


Kr 


分 ”基础 知识 


机 需 学 习 是 什么 ? 围棋 是 什么 ? 为 什么 围棋 是 游戏 AI 中 如 此 重要 的 
一 个 里 程 碑 ? 教 计算 机 下 围棋 ， 与 教 计 算 机 下 国际 象棋 或 跳棋 有 什么 不 
同 ? 

在 本 书 的 第 一 部 分 中 ， 我 们 将 会 回答 上 述 所 有 问题 。 而 且 ， 我 们 将 
会 构建 一 个 灵活 的 围棋 游戏 逻辑 库 ， 为 本 书后 面 的 章节 内 容 打 下 民 好 的 
基础 。 





第 1 章 ” 走 近 深 度 学 习 : 机 器 学 习 入 门 


。 机 器 学 习 以 及 它 与 传统 编程 的 区 别 。 

。 机 器 学 习 能 够 解决 以 及 不 能 解决 的 问题 。 
。 机 圳 学 习 与 人 工 智能 的 关系 。 

。 机 秦 学 习 系 统 的 结构 。 


。 机 器 学 习 的 不 同 分 文 领域 。 





自 计 算 机 出 现 以 来 ， 许 多 开发 人 员 束 一 直 热 衷 于 研究 人 工 智能 
CArtificial Intelligence，AI) : 在 计算 机 上 实现 类 似 于 人 的 行为 。 游 戏 
一 直 是 人 工 智 能 研究 界 的 热门 话题 。 在 PC 时 代 ，AI 己 经 在 西洋 跳棋 、 
西洋 双 陆 棋 、 国 际 象棋 等 绝 大 多 数 经 典 棋 类 游戏 中 超越 了 人 类 。 但 是 几 
十 年 以 来 ， 围 棋 这 个 古老 的 集 略 游戏 ， 仍 然 硕 强 地 屹立 于 计算 机 之 上 。 
直到 2016 年 ，Google DeepMind 的 AljphaGo AI 向 14 届 世界 冠军 李 世 石 发 
起 挑战 ， 并 获得 了 五 战 四 胜 的 成 绩 。 其 后 ，AlphaGo 的 改进 版 则 完全 超 
越 了 人 类 棋 手 的 极限 : 它 连 续 赢 得 了 60 场 比赛 ， 并 在 这 个 过 程 中 战胜 了 
几乎 所 有 著名 的 围棋 棋 手 。 








AlphaGo 所 做 出 的 创造 性 突破 ， 是 利用 机 需 学 习 来 增强 经 典 AI 算 


法 。 有 具体 地 说 ，AlphaGo 使 用 了 被 称 为 下 度 学 习 〈deep learning) 的 现代 
技术 ， 它 是 一 种 可 以 把 原始 数据 组 织 成 多 个 有 意义 的 抽象 层次 的 算法 。 
不 仅 如 此 ， 这 个 技术 完全 超越 了 棋 类 游戏 的 范畴 :在 图 像 识 别 、 语 普 理 
解 、 目 然 语言 翻译 和 机 器 人 的 控制 程序 中 ， 都 可 以 找到 次 度 学 习 的 应 

用 。 掌 握 了 深度 学 习 的 基础 知识 ， 就 有 了 理解 这 些 应 用 的 基础 。 














那么 ， 为 什么 我 们 要 号 一 整 本 书 来 介绍 计算 机 围棋 呢 ? 该 者 可 能 会 
青 测 ， 我们 是 不 古 铁杆 围棋 爱好 者 ? 好 吧 ， 我 们 承认 的 确 如 此 。 但 
其 实 我 们 不 研究 国际 象棋 或 双 陆 棋 而 研究 围棋 的 真正 原因 是 ， 与 它们 相 
比 ， 强 大 的 围棋 AI 离 不 开 深 度 学 习 。Stockfish 之 类 的 顶级 国际 象棋 引擎 
包含 了 大 量 的 国际 象棋 专用 逻辑 ， 而 要 写 出 类 似 的 东西 ， 束 需要 足够 的 
国际 象棋 知识 。 但 有 了 深度 学 习 ， 即 使 我 们 不 懂 围 棋 技 巧 ， 也 能 够 教会 
计算 机 模仿 围棋 高 手 。 这 正 古 深度 学 习 强 大 的 地 方 ， 让 人 们 能 够 开拓 出 
各 种 各 样 的 技术 应 用 ， 无 论 是 在 棋 类 游戏 中 ， 还 是 在 真实 世界 中 。 


























国际 象棋 和 西洋 跳棋 的 AI 所 采取 的 设计 策略 ， 是 想 办 法 让 AI 比 人 类 
棋 手 想 得 更 远 、 猜 得 更 准 。 但 如 果 围 棋 AI 也 这 么 做 ， 则 会 遇 到 两 个 问 
题 : 首先 ， 在 围棋 中 ， 由 于 需要 考虑 的 落 子 动作 的 可 能 性 实在 太 多 ， 没 
办 法 预测 很 远 ， 其 次 ， 即 使 能 够 提前 预测 ， 也 无 法 评价 落 子 动作 的 优 
务 。 而 实践 证 明 ， 深 度 学 习 是 解决 这 两 个 问题 的 关键 。 





本 书 的 主题 是 通过 介绍 AlphaGo 背 后 的 技术 来 引出 次 度 学 习 的 实践 
性 介绍 。 要 学 习 这 些 技术 ， 读 者 并 不 需要 对 围棋 有 深入 的 研究 ， 只 需要 
了 解 机 器 能 够 学 会 的 通用 规则 即 可 。 本 章 介绍 机 器 学 习 和 它 能 够 〈 以 及 
不 能 ) 解决 的 问题 类 型 。 我 们 将 通过 几 个 示例 来 前述 机 器 学 习 的 主要 分 








支 领域 。 我 们 将 看 到 深度 学 习 如 何 把 机 器 学 习 带 入 新 的 领域 。 
1.1 什么 是 机 器 学 习 


我 们 先 考虑 一 个 任务 : 从 照片 中 识别 出 菜 位 友人 。 对 大 多 数 人 来 
说 ， 就 算 照片 光线 不 足 ， 或 是 友人 刚 理 过 有 发， 或 是 换 了 新 衣服 ， 要 认 出 
他 来 也 是 轻而易举 的 事 。 但 若是 要 在 计算 机 上 编程 来 解决 这 个 问题 ， 应 
当 如 何 开始 呢 ? 奴 怕 谁 部会 晤 无 头绪 吧 。 而 这 类 问题 正 是 机 右 学 习 所 能 
够 解决 的 。 





传统 上 来 讲 ， 计 算 机 编程 指 在 结构 化 的 数据 上 执行 明确 的 程 友 规 
则 。 软 件 开发 人 员 动 手 编写 程序 ， 千 诉 计 算 机 如 何 对 数据 执行 一 组 指 
令 ， 并 输出 预期 的 结果 ， 如 图 1-1 所 示 。 这 个 过 程 与 税务 申报 有 些 类 
似 : 税 单 中 的 每 个 框 都 有 明确 的 定义 ， 并 且 有 详尽 的 规则 指明 如 何 进行 
计算 。 在 有 的 地 方 ， 这 种 计算 规则 可 能 相当 复杂 。 人 们 在 填写 税 单 时 非 
常 容 易 犯 错 ， 而 这 正 是 计算 机 程序 最 擅长 的 任务 。 




















传统 编程 范式 | 税务 申报 示例 





应 用 程序 的 用 | 
户 提供 数据 。 


应 用 程序 的 开发 人 员 
构思 程序 逻辑 并 编码 
来 实现 它 。 





程序 运行 之 
后 ， 会 得 到 
预期 的 输出 。 


图 1-1 ”软件 开发 人 员 所 熟悉 的 标准 编程 范式 。 开 发 人 员 构 思 算 法 并 实现 代码 ， 用 户 提 供 数 据 








与 传统 的 编程 范式 不 同 ， 机 顺和 学 习 不 用 直接 实现 算法 ， 而 是 从 样本 


数据 推断 出 程序 或 算法 。 因 此 ， 在 应 用 机 器 学 习 技 术 时 ， 我 们 仍然 癌 计 
算 机 提供 数据 ， 但 不 再 提供 指令 ， 也 不 再 等 待 预 期 的 输出 ， 而 是 同 它 所 
供 我 们 所 希望 的 输出 ， 让 机 器 上 自己 找到 对 应 的 算法 。 


要 构建 一 个 计算 机 程序 来 识别 照片 中 的 友人 ， 可 以 先 获 取 许 多 他 的 
照片 ， 然 后 用 一 套 算 法 来 分 析 这 个 照片 集合 ， 并 生成 一 个 能 够 匹配 照片 
的 函数 。 如 果 这 一 步 做 得 足够 好 ， 生 成 的 函数 甚至 可 以 用 来 检验 没 见 过 
的 新 照片 。 当 然 ， 程 序 其 实 并 不 知道 它 的 目标 是 什么 ， 它 唯一 要 做 的 是 
判断 新 图 片 与 提供 给 它 的 原始 图 片 是 否 相 似 。 





在 这 个 场景 中 ， 提 供给 机 器 用 来 训练 的 图 片 被 称 为 训练 数据 
(training data〉， 而 图 片 中 人 物 的 名 称 则 被 称 为 标签 〈label) 。 在 为 一 
个 目标 训练 〈train) 出 算法 之 后 ， 可 以 用 这 个 算法 来 预测 〈predict) 新 
数据 上 的 标签 ， 以 进行 测试 。 图 1-2 展 示 了 一 个 示例 ， 并 描述 了 机 器 学 
习 范 式 。 


机 器 学 习 范式 人 脸 识别 示例 

应 用 程序 的 开发 人 员 

人 
傅 
















应 用 开发 过 程 中 ， 开 发 
人 员 使 用 机 器 学 2 
成 一 个 算法 ， 用 它 

现 示例 。 









人 脸 识 别 算法 


生成 的 算法 集 
人 
统一 交付 


人 脸 识别 算法 


预测 的 人 名 


用 户 提供 新 输入 ， 
应 用 生成 的 算法 得 
到 输出 。 预测 的 标签 











图 1-2 ”机 器 学 习 范式 : 在 开发 过 程 中 ， 从 数据 集 生成 一 个 算法 ， 然 后 将 它 集成 到 最 终 的 应 用 中 
机 器 学 习 适 用 于 规则 模糊 的 场景 。 它 擅长 解决 类 似 于 “等 我 看 到 了 


才 知 道 它 是 什么 ”的 问题 。 我 们 不 用 直接 编写 函数 ， 而 是 提供 数据 来 指 
导 函 数 应 该 做 什么 ， 然 后 科学 地 生成 与 数据 相 匹 配 的 函数 。 





在 实践 中 ， 通 常 需要 把 机 器 学 习 和 传统 编程 结合 起 来 ， 才 能 构建 出 
真正 有 用 的 应 用 。 例 如 ， 对 于 前 面 提 到 的 人 脸 识别 应 用 ， 我 们 必须 告诉 
计算 机 如 何 碍 找 、 加 载 和 转换 示例 图 像 ， 然 后 才能 对 图 像 数据 应 用 机 器 
学 习 算 法 。 除 此 之 外 ， 还 可 能 需要 手写 一 些 规则 ， 例 如 如 何 区 分 头 部 特 
写 、 日 落 和 咖啡 拉 花 。 把 传统 编程 技术 和 先进 的 机 器 学 习 算 法 结合 起 
来 ， 往 往 会 比 只 用 其 中 一 个 要 好 得 多 。 





1.1.1 机 器 学 习 与 AI 的 关系 


从 广义 上 讲 ，AI 是 指 任何 让 计算 机 模仿 人 类 行为 的 技术 。AI 技 术 包 
括 很 多 不 同 的 范畴 ， 例 如 以 下 几 种 : 
。 逻辑 生产 系统 ， 应 用 形式 逻辑 来 分 析 语 句 ; 
。 专 家 系统 ， 软 件 开 发 人 员 尝 试 将 人 类 知识 直接 编码 到 软件 中 ; 
。 模糊 逻辑 ， 定 义 算 法 来 帮助 计算 机 处 理 不 精确 的 语句 。 
这 几 个 技术 都 是 基于 规则 的 ， 有 时 我 们 称 它 们 经 典 AI 或 老式 
AI (Good Old-Fashioned AI, GOFAI) 。 





机 器 学 习 只 是 人 工 关 能 领域 的 众多 分 文 领域 之 一 ， 但 如 今 它 可 以 说 
是 最 成 功 的 一 个 。 尤 其 是 深度 学 习 ， 作 为 机 器 学 习 的 一 个 子 领域 ， 它 成 


功 地 引领 了 近年 来 AI 世界 激动 人 心 的 几 次 突破 ， 甚 至 解决 了 困扰 研究 界 
数 十 年 的 问题 。 在 经 典 AI 中 ， 研 究 着 分 析 人 类 行为 ， 答 试 找到 相应 的 规 
则 ， 并 编写 成 代码 。 而 机 器 学 习 和 深度 学 习 解 决 问题 的 方式 则 完全 相 
有 反 : 在 机 器 学 习 里 ， 我 们 先 收集 人 类 行为 的 样 例 ， 再 用 数学 与 统计 学 技 
术 从 数据 中 抽取 规则 。 








深度 学 习 的 应 用 简直 无 处 不 在 ， 以 至 于 研究 界 和 常常 混 用 AI 和 深 太 学 
习 这 两 个 词语 。 在 本 书 中 ， 为 了 避免 混 消 ， 我 们 用 AI 这 个 词 来 表示 用 计 
算 机 模仿 人 类 行为 的 一 般 问 题 ， 用 机 器 学 习 或 深度 学 习 来 特 指 从 样 例 中 
抽取 算法 的 数学 技术 。 





1.1.2 机 器 学 习 能 做 什么 ， 不 能 做 什么 


机 器 学 习 是 一 种 专门 的 技术 。 它 不 能 用 来 更 新 数据 库 记 录 ， 也 不 能 
用 来 呈现 用 户 界 面 。 在 下 面 几 种 情形 中 ， 应 当 优 先 选 择 传 统 编程 来 解决 


问题 。 


。 用 传统 算法 就 能 够 直接 解决 问题 。 如 果 可 以 直接 编写 代码 来 解决 
问题 ， 那 么 与 机 器 学 习 相 比 ， 传 统 算 法 的 理解 、 维 护 、 测 试 和 调试 
将 更 加 容易 。 

期 望 程序 准确 无 误 。 所 有 复杂 的 软件 都 会 出 错 。 在 传统 的 软件 工程 
中 ， 我 们 可 以 系统 地 识别 和 修复 bug， 然 而 在 机 器 学 习 中 则 并 不 总 
是 如 此 。 我 们 可 以 想 办 法 改进 系统 ， 但 若是 过 分 专注 于 个 别 错误 ， 
往往 会 导致 整个 系统 变 得 更 糟 。 

简单 的 启发 式 规 则 已 经 够 好 了 。 如 果 用 几 行 代码 就 能 够 实现 一 个 
足够 好 的 规则 ， 那 么 最 好 安 于 现状 。 这 种 简单 的 启发 式 规则 如 果实 








现 得 足够 清晰 ， 就 会 非常 易于 理解 和 维护 。 而 机 顺 学 习 生 成 的 函数 
却 仿佛 筋 里 看 伦 ， 如 果 要 修改 更 新 ， 还 需要 再 单独 执行 一 吉 训 练 过 
程 。 相 反 地 ， 如 果 需 要 维护 一 整套 复杂 的 规则 ， 那 么 用 机 喜 学 习 代 
丛 传 统 编程 束 可 能 是 个 很 好 的 选择 了 。 





实际 上 上， 有些 问 题 用 传统 编程 能 够 解决 ， 但 如 果 对 问题 稍 作 变 化 ， 
就 可 能 连 机 需 学 习 也 难以 解决 了 。 这 两 类 问题 的 区 别 往往 非常 细微 。 例 
如 ， 前 面 讨论 的 图 像 中 人 脸 识 别 的 问题 与 给 人 脸 标 记名 称 的 问题 。 叉 
如 ， 检 测 文 本 所 使 用 的 语言 并 不 难 解决 ， 但 如 果 想 将 文本 翻译 成 其 他 指 
定 的 语言 ， 其 难度 就 会 有 天 壤 之 别 。 








当 问 题 的 复杂 度 非 常 高 时 ， 人 们 往往 还 是 倾 问 于 使 用 传统 编程 解 
决 ， 即 使 机 器 学 习 可 能 更 有 用 。 在 面 对 信 息 密 集 、 错 综 复 杂 的 场景 时 ， 
例如 在 宏观 经 济 学 、 股 票 市 场 预 测 和 政治 领域 中 ， 和 人们 通常 倾向 于 寻求 
经 验 法 则 和 规则 表述 。 但 实际 上 机 器 学 习 的 发 现 往 往 能 够 提供 灵感 ， 从 
而 大 大 帮助 这 些 流程 管理 人 员 或 专家 们 的 直 党 判断 。 真 实 世界 的 数据 往 
往 比 预想 中 更 有 结构 。 在 很 多 领域 里 ， 我 们 才刚 刚 开 始 感 受到 上 自动 化 与 
增强 机 器 学 习 发 展 所 市 来 的 好 处 。 








1.2 机 器 学 习 示 例 


机 器 学 习 的 目标 是 构建 一 个 很 难 直 接 实现 的 函数 。 要 做 到 这 一 点 ， 
首先 需要 选择 一 个 模型 (model) ， 即 一 族 通 用 函数 ， 然 后 需要 按照 一 
个 流程 从 这 一 族 函 数 中 选取 与 目标 相 匹配 的 函数 ， 这 个 流程 被 称 为 模型 
训练 (training the model) 或 模型 拟 合 〈fitting the model) 。 下 面 是 一 个 


简单 的 示例 。 


假设 我 们 收集 了 一 些 人 的 里 高 和 体重 数据 ， 并 绘制 在 图 上 。 图 1-3 
展示 了 从 职业 足球 队员 名 单 中 提取 的 一 系列 数据 点 。 


例如 ， 这 位 球员 身高 


70 英 寸 《 约 1. 78m) ， 
体重 175 磅 〈 约 79kg) 二 





体重 ( 磅 ) 











64 66 68 70 72 74 
身高 (英寸) 





图 1-3 一 个 简单 的 示例 数据 集 。 图 上 的 每 个 点 代表 一 名 足球 运动 员 的 
吴 高 与 体重 。 我 们 的 目标 是 用 这 些 数据 点 拟 合 出 一 个 模型 








假设 我 们 想 用 一 个 数学 函数 来 描述 这 些 数据 点 。 首 先 ， 注 意 这 些 数 
据点 大 致 可 以 形成 一 条 向 图 的 右上 方 延 伸 的 直线 。 在 代数 中 我 们 学 过 ， 
形 如 fx) = ax + pb 的 函数 可 以 描述 一 条 直线 。 或 许 我 们 可 以 找到 一 组 合适 
的 a、b 值 ， 使 得 ax + b 能 很 好 地 [匹配 这 些 数 据点 。 这 里 a、b 的 值 ， 束 是 
我 们 需要 搞 清楚 的 模型 参数 (parameter) ， 或 者 说 权重 (weight) ， 而 

这 个 函数 族 束 是 我 们 的 模型 。 我 们 可 以 编写 一 段 Python 代 人 码 来 生成 函数 
族 中 的 任意 一 个 函数 : 


class GenericLinearFunction: 
def _init (self, a, b): 
self.a a 
self.b b 


def evaluate(self, x): 
return self.a * x + self.b 





那么 如 何 找到 正确 的 ao 值 和 b 值 呢 ? 我 们 可 以 使 用 严格 的 算法 来 找到 
它们 ， 但 也 可 以 先 在 图 上 用 尺子 简单 地 男 一 条 通过 图 形 的 直线 ， 然 后 计 
算 它 的 公式 。 图 1-4 展 示 了 一 条 和 直线， 这 条 和 直线 大 致 遵循 这 些 数据 点 的 
趋势 。 








这 条 直线 与 数据 最 匹配 。 
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图 1-4 首先 注意 数据 集 大 致 遵循 的 一 个 线性 趋势 ， 接 着 找到 拟 合 这 些 数据 的 一 条 直线 的 公式 











只 要 挑选 直线 经 过 的 几 个 点 ， 就 可 以 计算 得 到 直线 的 公式 ， 并 得 到 
类 似 于 fo = 4.2x - 137 的 结果 。 人 至 此 ， 我 们 就 有 一 个 与 数据 相 匹 配 的 具 
体 函 数 了 。 如 果 这 时 候 我 们 再 测量 一 个 新 球员 的 映 高 数据 ， 束 可 以 用 得 





到 的 函数 来 估计 他 的 体重 。 这 种 估计 并 不 完全 准确 ， 但 应 当 足 够 接近 真 
实 值 ， 因 此 是 具有 实用 价值 的 。 下 面 的 代码 
将 GenericLinearFunction 转 换 为 一 个 特定 的 函数 : 


height to weight = GenericLinearFunction(a=4.2, b=-137) 


height of_new_ person = 73 
estimated weight = height to weight.evaluate(height of _new person) 





只 要 新 得 到 的 数据 同样 采集 自 职业 足球 运动 员 ， 束 可 以 得 到 相当 准 
ee 因为 这 个 数据 集 包 含 的 都 是 成 年 男性 ， 年 龄 范围 也 相当 狭 

， 并 且 每 天 都 练习 同一 项 运动 。 但 如 果 用 这 个 函数 去 预测 女子 足球 运 
ep 得 到 很 不 准确 的 结果 。 生 成 的 函 
数 受 限于 训练 数据 。 


以 上 就 是 机 器 学 习 的 基本 流程 。 在 上 面 的 例子 中 ， 训 练 模型 即 是 所 
有 形 如 fx) = ax + b 的 函数 族 。 实 际 上 ， 即 便 这 么 简单 的 模型 也 是 非常 有 
用 的 ， 并 且 统 计 学 家 们 一 直 在 使 用 它们 。 如 果 需 要 处 理 更 复杂 的 问题 ， 
就 必须 采用 更 复杂 的 模型 以 及 更 先进 的 训练 技术 了 。 但 核心 思想 还 是 一 
样 的 : 移 描 述 一 族 可 能 的 函数 ， 再 找到 函数 族 中 最 适合 的 那个 。 


Python 和 机 器 学 习 


本 书 中 的 所 有 代码 示例 都 是 用 Python 编写 的 。 为 什么 选择 Python 
呢 ? 首先 ，Python 是 一 种 通用 的 程序 开发 语言 ， 有 很 强 的 表达 力 。 此 
外 ， 在 机 器 学 习 和 数学 编程 领域 ，Python 本 就 是 最 流行 的 语言 之 一 。 这 








两 个 优势 结合 起 来 ， 使 得 Python 成 为 机 器 学 习 应 用 的 一 个 目 然 选择 。 





还 有 一 个 原因 让 Python 在 机 器 学 习 领 域 广 受 欢迎 : 它 有 一 大 扒 强 大 
的 数值 计算 包 。 本 书 使 用 了 以 下 几 个 包 。 





。 NumpPy 一 一 这 是 一 个 数值 计算 库 ， 提 供 了 噩 效 的 数据 结构 来 表示 数 
值 问 量 和 数组 ， 还 配备 了 功能 完善 的 高 速 数学 运算 库 。NumPy 古 
Python 数 值 计 算 生态 的 基石 :许多 机 器 学 习 和 统计 库 都 集成 了 
NumPy。 








TensorFlow 和 Theano 一 一 这 是 两 个 图 计算 库 〈 这 里 的 图 ， 指 的 是 由 
相互 连接 的 节点 所 组 成 的 网 络 结构 ， 而 不 是 图 表 中 的 图 形 )。 它 们 
可 以 定义 复杂 的 数学 运算 序列 ， 然 后 生成 高 度 优化 的 实现 。 

Keras 一 一 这 是 一 个 深度 学 习 的 高 级 库 。 它 提供 了 很 多 便捷 的 方法 
来 配置 神经 网 络 。Keras 后 台 依 赖 于 TensorFlow 或 Theano 来 进行 原始 
计算 。 





本 书 代 码 示例 所 用 的 库 版 本 分 别 是 Keras 2.2 和 TensorFlow 1.8。 理 论 
上 ， 只 要 进行 少许 修改 ， 这 些 代 码 就 能 在 Keras 2.x 系 列 的 任何 版 本 中 运 


1.2.1 在 软件 应 用 中 使 用 机 器 学 习 


在 1.2 节 中 ， 我 们 讨论 了 一 个 纯粹 的 数学 模型 。 那 么 如 何 将 机 器 学 
习 应 用 于 真实 的 软件 应 用 中 呢 ? 


假设 有 一 个 照 户 共享 应 用 ， 用 户 已 经 上 传 了 数 百 万 张 附 融 标 签 的 照 
片 。 这 时 我 们 想 要 添加 一 个 新 功能 : 为 新 照片 推荐 相关 标签 。 这 个 功能 
非常 适合 使 用 机 器 学 习 。 

首先 我 们 需要 确定 想 要 学 习 的 函数 。 假 设 函 数 是 下 面 这 样 的 : 
def suggest tags(image data): 

'""Recommend tags for an image. 


Input: image data is a photo in bitmap format 


Returns: a ranked list of suggested tags 














有 了 这 个 函数 ， 其 他 的 功能 就 相对 容易 实现 了 。 但 如 何 着 手 实现 
suggest_tags 这 个 函数 本 身 呢 ? 很 难 找到 头绪 。 而 这 正 是 机 器 学 习 能 
够 发 挥 作用 的 地 方 。 


如 果 这 是 一 个 普通 的 Python 函数 ， 写 的 输入 应 当 是 某 种 Image 对 
象 ， 它 返回 的 应 当 是 一 个 字符 串 列表 。 但 机 器 学 习 算 法 的 输入 和 输出 就 
没 那 么 灵活 了 : 机 器 学 习 通常 只 能 处 理 向 量 和 秆 阵 。 因 此 ， 工 作 的 第 一 
步 是 用 数学 的 形式 来 表示 这 个 函数 的 输入 和 输出 。 








如 末 将 输入 的 照片 尺寸 转换 为 固定 尺寸 (如 128 像 系 x128 像 素 )， 
我 们 束 可 以 把 它 编 码 成 128 行 、128 列 的 矩阵 了 ， 这 时 照片 的 每 个 像素 对 
应 一 个 浮 后 数值 。 那 么 对 于 输出 该 如 何 处 理 呢 ?一 种 办 法 是 限定 识别 的 
标签 集合 ， 例 如 ， 可 以 只 选择 应 用 里 最 流行 的 1000 个 标签 。 这 样 函数 的 
输出 就 可 以 设 为 大 小 为 1000 的 辐 量 了 ， 而 它 的 每 个 元 素 对 应 一 个 标签 。 
如 果 把 标签 输出 值 设置 为 0~1 的 变化 数值 ， 那 么 函数 就 可 按照 这 个 建议 











值 的 顺序 生成 有 序 的 标签 列表 了 。 图 1-5 展 示 了 这 个 应 用 中 每 个 概念 与 
数学 结构 之 间 的 映射 。 
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E 预测 : 


0.00 
#dog #nature EE== > 


#food 
#nature 
#sunset 
#dog 
#fashion 


0.31 
0.01 
0.62 
0.02 


在 应 用 的 代码 中 ， 用 一 个 字符 
串 列表 来 表示 标签 的 集合 。 要 
应 用 机 器 学 习 算法 ， 需 要 把 它 
编码 为 数学 向 量 。 
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这 个 向 量 中 的 每 个 选择 一 组 固定 标签， 
元 素 都 代表 一 个 标 。 让 机 器 学 习 算 法 来 学 
签 ， 元 素 值 则 表示 。 习 如 何 预测 。 
标签 与 图 像 的 匹配 

置信 和 度 ， 由 模型 计 

算得 出 。 








图 1-5 机 器 学 习 算 法 只 能 操作 癌 量 或 矩阵 之 类 的 数学 结构 ， 而 在 这 个 照片 应 用 里 ， 用 来 存储 标 
签 的 字符 串 列 表 是 一 种 标准 的 计算 机 数据 结构 。 本 图 展示 将 标签 列表 编码 成 数学 向 量 的 一 种 可 
能 方案 














我 们 在 上 面 所 做 的 数据 预 处 理 ， 是 所 有 机 需 学 习 系统 都 不 可 或 缺 的 
一 个 步骤 。 在 机 融 学 习 中 ， 我 们 通 币 会 加 载 原 始 格式 的 数据 ， 然 后 执行 
预 处 理 步 骤 ， 创 建 一 系列 特征 〈feature) ， 并 作为 输入 数据 发 送 给 机 器 
学 习 算 法 。 


122 监督 学 习 


接 下 来 ， 我 们 需要 一 个 用 来 训练 模型 的 算法 。 在 前 面 的 示例 中 ， 我 
们 已 经 拥有 数 以 百 万 的 正确 样本 ， 即 用 户 在 应 用 中 上 传 并 手动 标记 过 的 
J 我 们 可 以 训练 一 个 函数 来 尽 可 能 地 拟 合 这 些 样本 数据 ， 并 项 

文 个 函数 能 够 聪明 地 处 理 新 照片 。 我 们 把 这 种 技术 称 为 监督 学 
(supervised learning) 。 这 么 命名 的 原因 是 我 们 利用 a 
数据 来 监督 指导 训练 过 程 。 





训练 完成 之 后 ， 会 得 到 一 个 函数 ， 然 后 集成 到 应 用 中 发 布 。 每 当 用 
户 上 传 新 照片 时 ， 照 片 数据 会 传递 给 训练 好 的 模型 函数 ， 并 获得 一 个 结 
果 向 量 。 接 着 我 们 就 可 以 把 结果 向 量 中 的 每 个 值 映射 回 它 所 代表 的 标 
签 ， 然 后 选择 数值 最 大 的 标签 显示 给 用 户 。 整 个 流程 如 图 1-6 所 示 。 


测试 与 评估 
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1 比较 一 ~| 预测 到 的 标签 








图 1-6 基于 监督 学 习 的 机 器 学 习 流程 











那么 如 何 测试 训练 得 到 的 模型 呢 ? 标准 的 做 法 是 将 原始 标签 数据 提 
前 预 留 出 一 部 分 用 于 测试 。 在 训练 开始 之 前 ， 我 们 可 以 将 数据 中 的 一 小 
部 分 〈 如 10%) 留 作 验 证 集 (validation set) 。 验 证 集中 的 数据 不 能 以 
任何 形式 参与 训练 过 程 。 训 练 完 成 后 ， 用 得 到 的 模型 来 处 理 验证 集中 的 


图 像 ， 并 把 模型 建议 的 标签 与 已 知 的 正确 标签 进行 比较 。 这 样 就 可 以 计 
算出 训练 模型 的 准确 率 (accuracy) 了 。 如 果 想 尝试 不 同 的 模型 ， 可 以 
把 这 个 准确 率 作 为 一 致 标准 ， 来 衡量 哪个 模型 更 好 。 





在 游戏 AI 中 ， 我 们 可 以 从 人 类 游戏 的 记录 中 提取 带 标 签 的 训练 数 
据 。 在 线 游 戏 对 机 器 学 习 来 说 是 一 个 巨大 的 促进 : 当 人 们 在 线 玩 游戏 
时 ， 游 戏 服 务 需 都 可 以 保存 一 份 计算 机 可 识别 的 记录 。 我 们 举 几 个 在 洲 
戏 中 使 用 监督 学 习 的 例子 : 





。 假设 有 一 个 国际 象棋 游戏 的 完整 棋谱 集合 ， 可 以 用 同 量 或 矩阵 形式 
来 表示 游戏 状态 ， 并 从 这 些 数据 中 学 习 如 何 预测 下 一 手 落 子 动作 :; 
。 对 于 给 定 的 棋盘 状态 ， 学 习 如 何 预 测 本 局 的 胜 负 概率 。 


1.2.3 无 监督 学 习 


机 器 学 习 还 有 另 一 个 子 领域 ， 称 为 无 监督 学 习 (unsupervised 
learning) 。 与 监督 学 习 不 同 ， 它 不 用 任何 标签 来 指导 学 习 过 程 。 在 无 
监督 学 习 中 ， 算 法 必须 想 办 法 自己 从 输入 数据 中 识别 出 模式 。 无 监督 学 
习 的 学 习 流 程 与 图 1-6 所 示 的 监督 学 习 流程 的 唯一 区 别 就 在 于 它 缺 少 标 
签 ， 因 此 它 无 法 像 监督 学 习 那 样 评估 模型 的 预测 结果 。 











寞 第 值 检测 (outlier detection) 问题 ， 即 识别 不 符合 数据 集 总 体 趋 
势 的 数据 点 的 问题 ， 是 无 监督 学 习 的 一 个 典型 案例 。 在 足球 和 运动员 数据 
集中 ， 异 常 值 指 的 是 与 队员 — 典 型 体格 不 相符 的 数据 。 例 如 ,假设 有 一 个 
吴 高 x 宽 度 的 数据 点 ， 并 且 我 们 已 经 为 模型 拟 合 出 一 条 平均 直线 ， 那 就 








可 以 想 出 一 个 算法 来 计算 这 个 数据 点 与 平均 直线 之 间 的 距离 。 如 果 距 离 
超过 了 东 个 国 值 ， 束 可 以 把 这 个 数据 点 看 作 异 党 值 了 。 





在 棋盘 游戏 AI 中 ， 一 个 很 自然 的 问题 是 如 何 检 查 棋 子 间 的 相互 关 
联 ， 即 检查 哪些 棋子 形成 一 个 组 合 。 我 们 将 在 第 3 章 中 更 详细 地 解释 它 
对 于 围棋 的 意义 。 这 种 搜寻 关联 个 体 所 形成 的 组 合 的 问题 被 称 为 到 类 
(clustering) 或 组 块 (chunking) 。 图 1-7 展 示 了 一 个 国际 象棋 的 例子 。 








。 模型 训练 。 测试 与 评估 
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图 1-7 用 于 查找 棋子 的 聚 类 或 组 块 的 无 监督 学 习 流 程 
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1.2.4 强化 学 习 


监督 学 习 很 强大 ， 但 如 何 找到 高 质量 的 训练 数据 可 能 会 是 一 个 主要 
问题 。 假 设 我 们 想 要 设计 一 个 扫地 机 器 人 。 它 有 很 多 传感器 ， 用 于 检测 
是 否 靠近 障碍 物 ， 它 还 有 电动 引擎 ， 可 以 在 地 板 上 飞 奔 或 转向 。 它 需要 
一 个 控制 系统 ， 负 贡 分 析 传 感 右 的 输入 并 决定 应 该 如 何 移动 。 但 这 个 问 
题 无 法 用 监督 学 习 来 解决 ， 因 为 我 们 无 法 得 到 可 以 用 作 训 练 数据 的 样本 
一 一 扫地 机 圳 人 还 没 制造 出 来 。 














对 此 ， 我 们 可 以 用 强化 学 习 (reinforcement learning ) 来 解决 。 强 
化 学 习 是 一 种 反复 试 错 的 方法 。 我 们 先 从 一 个 效率 很 低 、 精 度 不 够 高 的 
基本 控制 系统 开始 ， 让 机 器 人 不 断 地 尝试 完成 它 的 任务 。 在 任务 执行 期 
间 ， 我 们 把 控制 系统 过 到 的 所 有 输入 以 及 它 所 做 的 所 有 决策 都 记录 下 
来 。 任 务 完 成 之 后 ， 用 某 种 方法 来 评估 控制 系统 的 表现 ， 例 如 ， 可 以 计 
算 它 实际 缆 盖 到 地 板 面 积 的 比例 ， 或 计算 它 的 耗 电 程度 。 这 个 过 程 能 够 
提供 一 小 批 训练 数据 ， 我 们 用 它们 来 改进 控制 系统 。 接 着 再 反复 不 断 地 
执行 这 个 过 程 ， 我 们 就 可 以 逐步 得 到 更 加 高 效 的 控制 系统 了 。 图 1-8 展 
示 了 训练 过 程 的 流程 图 。 








在 执行 任务 的 过 程 中 ， 
“区 录 机 器 大观 农 到 的 全 
部 内 容 以 及 它 的 决策 






生成 训练 数据 





























图 1-8 ”在 强化 学 习 中 ， 机 器 人 通过 反复 试 错 来 学 习 如 何 与 环境 进行 交互 。 它 通过 反复 尝试 完成 
任务 来 获得 可 供 学 习 的 监督 信号 数据 。 每 经 过 一 个 训练 周期 ， 都 能 够 得 到 一 点 增 量 改进 

















3 深度 尘 习 


本 书 的 内 容 由 很 多 句子 组 成 ， 这 些 句 子 由 单词 组 成 ， 这 些 单词 义 由 
单字 组 成 ， 单 字 巾 则 由 线条 和 曲线 组 成 ， 而 这 些 线条 和 曲线 由 微小 的 墨 
点 组 成 。 在 教 孩子 学 习 阅 读 的 时 候 ， 我 们 往往 从 最 小 的 部 分 开始 ， 然 后 
逐渐 提高 难度 : 首先 是 字 ， 然 后 是 词 ， 再 接着 是 句子 ， 最 后 才 是 完整 的 
书 。《 人 至 于 线条 和 曲线 ， 孩 子 们 往往 能 目 己 学 会 识别 。) 这 种 分 层 的 结 























构 是 人 类 学 习 复杂 概念 的 一 种 目 然 方式 。 每 上 升 一 层 ， 我 们 都 会 丢掉 一 
些 细节 ， 让 概念 变 得 更 加 抽象 。 


深度 学 习 把 这 些 原 理应 用 到 了 机 器 学 习 之 中 。 深 度 学 习 是 机 器 学 习 
的 一 个 子 领域 ， 它 采用 了 一 个 特定 的 模型 : 一 族 通过 某 种 方式 连接 起 来 
的 简单 函数 。 由 于 这 类 模型 的 结构 是 受到 人 类 大 脑 结构 的 局 发 而 创造 出 
来 的 ， 因 此 我 们 通常 把 它们 称 为 神经 网 络 (neural networks) 。 神 经 网 
络 中 的 函数 链条 能 够 将 复杂 的 概念 分 解 为 多 个 层次 的 更 简单 的 概念 ， 这 
就 是 深度 学 习 的 核心 思想 。 例 如 ， 深 度 学 习 模 型 的 第 一 层 ， 可 以 用 来 学 
习 如 何 获取 原始 数据 ， 并 用 基本 的 方式 来 组 织 它 (如 将 多 个 点 组 合成 直 
线 ) 。 后 面 每 一 层 都 将 前 面 一 层 组 织 成 更 高 级 、 更 抽象 的 概念 。 我 们 把 
学 习 这 种 抽象 概念 的 过 程 称 作 表 征 学 习 (representation learning) 。 























深度 学 习 的 神奇 之 处 在 于 ， 我 们 并 不 需要 事先 了 解 中 间 层 的 概念 具 
体 是 什么 。 如 果 选 择 的 模型 层次 足够 多 《〈 即 深度 足够 深 ) ， 并 提供 足够 
数量 的 训练 数据 ， 它 就 能 在 训练 过 程 中 逐步 将 原始 数据 组 织 为 越 来 越 高 
级 的 概念 。 那 么 训练 算法 怎么 知道 应 当 使 用 哪些 概念 呢 ? 它 并 不 需要 知 
道 。 它 只 需要 找到 能 够 更 好 地 匹配 训练 样本 的 数据 组 织 方式 就 可 以 了 。 
至 于 生成 的 表征 是 不 是 能 够 符合 人 们 对 数据 的 印象 ， 那 就 无 法 保证 了 。 
图 1-9 展 示 了 如 何 将 表征 学 习 融 入 深度 学 习 的 流程 中 。 
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图 1-9 ”深度 学 习 和 表征 学 习 








深度 学 习 的 这 种 强大 能 力 是 有 代价 的 : 深度 学 习 模 型 需要 学 习 的 权 








重 数 量 非常 巨大 。 回 顾 一 下 前 面 处 理 吴 高 -体重 数据 集 的 简单 模型 ax + 
b， 这 个 模型 只 有 两 个 权重 需要 学 习 。 而 用 于 处 理 图 像 标签 应 用 的 深度 
学 习 模 型 ， 则 可 能 有 上 百 万 个 权重 。 因 此 ， 深 度 学 习 需 要 更 大 的 数据 


集 、 














更 强 的 计算 能 力 以 及 更 多 的 训练 实践 。 深 度 学 习 与 传统 机 器 学 习 各 


有 其 适用 的 情形 。 在 下 列 几 种 情形 中 ， 深 度 学 习 是 一 个 不 错 的 选择 。 





应 用 的 数据 格式 是 非 结 构 化 的 。 图 像 、 音 频 和 书面 语言 都 是 深度 
学 习 的 理想 处 理 对 象 。 采 用 简单 模型 来 学 习 这 些 数据 也 不 是 不 可 
能 ， 但 通 闻 需要 非常 复杂 的 预 处 理 过 程 。 

有 大 量 的 可 用 数据 ， 或 者 有 办 法 获得 更 多 数据 。 通 常 ， 模 型 越 复 
杂 ， 训 练 所 需 的 数据 就 越 多 。 

有 足够 强 的 计算 能 力 或 充足 的 时 间 。 深 度 学 习 模 型 在 训练 和 评估 
过 程 中 都 需要 更 多 的 计算 量 。 














而 在 以 下 的 情形 中 ， 应 当选 择 参数 较 少 的 传统 模型 。 





应 用 的 数据 是 结构 化 的 。 如 果 输 入 看 起 来 更 像 是 数据 库 记 录 ， 那 么 
通常 可 以 直接 应 用 简单 模型 。 
想 要 一 个 描述 性 的 模型 。 使 用 简单 模型 ， 能 够 看 到 最 终 学 习 到 的 有 具 








体 函 数 ， 因 而 可 以 直接 检查 不 同 的 输入 对 输出 的 影响 。 这 样 做 能 让 
开发 者 更 方便 地 了 解 应 用 在 真实 世界 中 的 工作 情况 。 但 是 在 深度 学 
习 模 型 中 ， 特 定 输入 与 最 终 输出 之 间隔 看 绢 长 曲 绕 的 神经 连接 ， 使 
得 我 们 很 难 对 模型 做 出 描述 或 解释 。 





由 于 深度 学 习 指 的 是 模型 类 型 ， 因 此 前 面 讲 到 的 几 个 不 同 的 机 器 学 
习 分 文 ， 都 可 以 应 用 它 。 例 如 ， 在 监督 学 习 中 ， 根 据 拥有 的 训练 数据 的 
不 同 ， 我 们 可 以 在 简单 模型 或 深度 学 习 模型 之 间 做 出 选择 。 





1.4 阅读 本 书 能 学 到 什么 








本 书 是 对 深度 学 习 和 强化 学 习 的 实践 性 介绍 。 要 充分 掌握 本 书 ， 读 
者 应 当 熟 练 阅读 与 编号 Python 代码 ， 并 熟悉 基本 的 线性 代数 和 微 积分 知 
识 。 在 本 书 中 ， 我 们 将 会 讨论 以 下 几 个 问题 。 








。 如 何 用 深度 学 习 库 Keras 来 设计 、 训 练 、 测 试 神经 网 络 ? 
。 如 何 设置 有 监督 的 深度 学 习 问 题 ? 

。 如 何 设置 强化 学 习 问 题 ? 

。 如 何 将 深度 学 习 和 集成 到 一 个 实际 应 用 中 ? 





在 纵览 全 书 的 过 程 中 ， 我 们 会 跟随 一 个 具体 而 有 趣 的 实例 : 构建 转 
棋 AI。 我 们 的 围棋 机 器 人 十 深度 学 习 与 标准 的 计算 机 算法 相 结合 的 产 
物 。 我 们 将 使 用 简单 明了 的 Python 代码 ， 来 执行 棋盘 规则 ， 跟 踩 游戏 状 
态 ， 并 预先 推测 可 能 发 生 的 棋局 状态 。 而 深度 学 习 将 帮助 机 帮 人 识别 哪 
些 动作 值得 深入 探讨 ， 并 在 盘 中 阶段 的 每 一 回合 帮助 它 评估 哪 一 方 领 
先 。 在 学 习 本 书 的 各 个 阶段 ， 每 次 采用 了 更 复杂 的 技术 后 ， 读 者 都 可 以 











与 改进 的 机 器 人 对 大 ， 并 观察 它 的 进步 。 


如 果 读 者 对 围棋 特别 感 兴 趣 ， 可 以 把 本 书 构建 的 机 器 人 当 作 起 点 去 


尝试 目 己 的 更 多 想法 。 读 者 还 可 以 把 这 套 技术 应 用 到 其 他 棋 类 游戏 中 ， 
甚至 应 用 到 游戏 之 外 的 领域 ， 为 各 种 应 用 增添 深度 学 习 珊 来 的 强大 力 


三 


里 。 


1.5 ”小结 





机 融 学 习 是 一 种 从 数据 生成 函数 而 不 是 直接 编写 函数 的 技术 。 它 可 
以 用 来 解决 那些 过 于 模糊 而 无 法 直接 编程 解决 的 问题 。 

要 开展 机 器 学 习 ， 通 党 需要 先 选 择 一 个 侣 型 ， 即 一 族 通 用 的 数学 函 
数 ， 接 下 来 对 模型 进行 训练 ， 即 用 某 种 算法 找到 这 一 族 函 数 中 最 适 
合 的 那个 。 研 究 机 口 学 习 时 ， 最 重要 的 技艺 就 在 于 如 何 选 择 正 确 的 
模型 ， 以 及 将 特定 数据 集 转换 成 模型 能 够 处 理 的 格式 。 

机 器 学 习 有 3 个 主要 的 领域 ,分 别 是 监督 和 学习、 无 监督 学 习 和 强化 
学 习 。 

监督 学 习 指 利 用 已 知 的 正确 样本 数据 来 学 习 一 个 函数 。 在 能 够 得 到 
人 类 行为 或 知识 的 样本 时 ， 可 以 使 用 监督 学 习 在 计算 机 上 模仿 它 

们 。 

无 监督 学 习 是 指 在 事先 对 数据 的 结构 一 无 所 知 的 情况 下 ， 从 数据 中 
抽取 结构 的 算法 。 它 的 一 个 常见 应 用 是 将 数据 集 拆 分 为 多 个 逻辑 

组 ， 即 聚 类 问题 。 

强化 学 习 指 通过 反复 试 错 来 学 习 一 个 函数 。 如 果 要 编程 评估 程序 完 
成 目标 的 程度 ， 就 可 以 应 用 强化 学 习 ， 通 过 多 次 反复 试 错 来 逐步 改 
进程 序 。 

深度 学 习 是 指 在 机 器 学 习 中 使 用 的 一 种 特殊 的 模型 ， 它 擅长 处 理 非 











[1] 


结构 化 的 输入 〔 如 图 像 或 文本 ) 。 它 是 当今 计算 机 科学 中 最 激动 人 
心 的 领域 之 一 ， 而 且 正 在 不 断 地 突破 我 们 对 计算 机 能 做 什么 的 想法 
的 极限 。 


原著 中 的 单字 指 的 是 英文 字母 。 一 一 译 者 注 


第 2 划 ”围棋 与 机 天 学 习 


本 章 主要 内 容 


。 为 什么 游戏 是 适合 人 工 智 能 的 优秀 题材 ? 





。 为 什么 围棋 是 适合 深度 学 习 的 好 问题 ? 
。 围棋 的 规则 是 什么 ? 


。 棋 类 游戏 中 的 哪些 部 分 可 以 用 机 器 学 习 来 解决 ? 
2.1 为 什么 选择 游戏 


游戏 是 人 工 智能 研究 中 最 受 欢 迎 的 主题 。 这 不 仅 是 因为 游戏 很 有 
趣 ， 还 因为 它 从 茶 种 程度 上 简化 了 现实 生活 的 复杂 度 ， 使 得 人 们 可 以 专 
注 村 研究 算法 本 刁 。 


设想 一 下 ， 当 你 在 Twitter 或 Facebook 上 看 到 一 条 信息 “号 ， 我 忘记 
带 爹 了 。” 的 时 候 ， 你 号 上 就 能 得 出 结论 : 你 的 朋友 淋 雨 了 。 但 这 个 信 
恩 在 句子 中 完全 没有 体现 。 那 么 你 是 如 何 得 出 这 个 结论 的 呢 ? 站 先 ， 根 
据 常 识 可 以 得 出 雨伞 的 用 途 ; 接着 ， 生 活 经 验 告 诉 你 ， 人 们 愿意 花 工 夫 
去 写 信息 ， 那 肯定 是 事 出 有 因 : 要 是 在 一 个 阳光 灿烂 的 日 子 里 说 “我 忘 
记 带 全 了 ”， 就 会 显得 非常 奇怪 。 




















人 类 在 阅读 句子 时 可 以 毫 不 费力 地 联想 到 这 些 背 景 信息 。 但 对 计算 
机 来 说， 这 可 并 不 容易 。 现 代 的 深度 学 习 技术 能 够 高 效 地 处 理 人 提供 给 
它 的 信息 ， 但 要 找到 所 有 的 关联 信息 并 提供 给 计算 机 则 是 很 困难 的 事 
情 ， 往 往 超 出 人 的 能 力 极 限 。 而 游戏 可 以 回避 这 类 问题 ,游戏 运行 在 人 
为 构造 的 世界 中 ， 因 此 决策 所 需 的 全 部 信息 都 明确 地 写 在 游戏 规则 里 
本 











不 仅 如 此 ， 游 戏 还 特别 适合 强化 学 习 。 我 们 知道 ， 强 化 学 习 需 要 反 
复 运 行程 序 ， 并 评估 它 的 任务 完成 效果 。 假 设 我 们 用 强化 学 习 训 练 机 器 
人 在 房间 四 处 移动 。 在 控制 系统 进行 足够 优化 之 前 ， 机 器 人 可 能 会 从 楼 
梯 上 跌落 ， 或 撞 倒 家 具 。 所 以 我 们 也 可 以 换 一 种 办 法 ， 建 立 一 个 计算 机 
模拟 环境 ， 让 机 器 人 在 其 中 运行 。 这 么 做 能 避免 未 经 训练 的 机 器 人 在 真 
实 世 界 如 初生 牛犊 般 乱 跑 ， 但 也 会 产生 新 问题 。 首 先 ， 开 发 完备 的 计算 
机 模拟 环境 本 里 束 是 一 个 很 大 的 工程 ， 需 要 增加 新 的 投入 ; 其次， 模拟 
很 可 能 并 不 完全 准确 。 





而 对 游戏 来 襄 ， 和 情况 就 很 不 一 样 了 。 我 们 唯一 要 做 的 事情 就 是 让 AI 
进行 游戏 。 就 算 它 在 学 习 的 过 程 中 输 了 几 十 万 场 比赛 ， 又 有 什么 影 啊 
呢 ? 因此 ， 在 强化 学 习 领 域 里 ， 游 戏 对 于 严肃 的 研究 是 至 关 重 要 的 。 许 
多 前 沿 的 算法 都 选择 先 用 雅 达 利 电子 游戏 〈 如 打 砖 块 ， 瑞 文 名 为 
Breakout) 来 演示 成 果 。 





当然 ， 强 化 学 习 是 能 够 成 功 地 应 用 于 真实 世界 的 问题 的 。 大 量 的 研 
究 人 员 和 工程 师 都 已 经 成 功 做 到 了 这 一 点 。 如 末 先 从 游戏 着 手 ， 束 能 够 
避免 构造 晕 真 的 训练 环境 的 腑 烦 ， 从 而 专注 于 研究 强化 学 习 本 里 的 机 制 


和 原理 。 


本 章 将 介绍 围棋 游戏 的 规则 。 人 然后 我 们 会 讲述 棋盘 游戏 AI 的 高 层 结 
构 ， 并 指出 哪些 地 方 可 以 引入 深度 学 习 技 术 。 最 后 ， 我 们 将 介绍 如 何在 
研发 过 程 中 评估 游戏 AI 的 改进 程度 。 





2.2 ”围棋 快速 入 门 


要 阅读 本 书 ， 并 不 需要 读者 是 围棋 高 手 ， 但 至 少 要 理解 围棋 的 规 
则 ， 这 样 才能 够 在 计算 机 程序 中 实现 它们 。 笠 运 的 是 ， 围 棋 的 规则 其 实 
很 简单 。 用 一 句 话 概括 就 是 : 黑白 双方 棋 手 交 蔡 将 黑白 棋子 落 在 棋盘 
上 ， 黑 方 先 沙子 ， 游 戏 的 胜利 目标 是 让 己方 棋子 在 棋盘 上 控制 尽 可 能 大 
的 地 盘 。 














里 然 规 则 很 简单 ， 但 围棋 的 集 略 深度 却 是 无 穷尽 的 ， 以 至 于 我 们 都 
不 打算 在 本 书 介绍 任何 围棋 策略 。 如 果 读 者 想 要 了 解 更 多 信息 ， 可 以 参 
看 后 文 提 供 的 相关 资源 。 


2.2.1 了 解 棋 盘 


围棋 棋盘 是 一 个 正方 形 的 网 格 ， 如 图 2-1 所 示 。 棋 子 落 在 十 字 区 叉 
点 的 位 置 ， 而 不 是 方 格 内 。 









































交叉 二 让， 俐 模子 不 能 落 入 方 格 
这 样 。 落 在 边线 上 的 交叉 “ 内， 这 样 做 是 错 的 。 
SS 是 可 以 的。 oe 
© @ 
| 大 @. . 
S S 2 



















































































图 2-1 标准 19 x 19 围 棋 棋 盘 。 标 有 粗 圆 点 的 交叉 点 称 为 星 位 ， 棋 手 用 它们 作为 参考 点 。 棋 子 只 
能 落 在 交叉 点 上 





标准 棋盘 的 规格 是 19x19， 但 有 时 棋 手 也 会 使 用 较 小 的 棋盘 来 进行 
快速 较量 。 在 较 小 的 规格 中 ，9x9 和 13x13 棋 盘 更 受 欢 迎 。《〈 这 里 说 的 棋 
盘 规格 ， 指 的 是 棋盘 上 交叉 点 的 数量 ， 而 不 是 方 格 的 数量 。) 





注意 ， 棋 盘 中 标记 了 9 个 粗 圆 点 ， 这 些 操 称 为 星 位 。 它 们 的 主要 作 
用 是 辅助 棋 手 判断 棋盘 上 的 距离 ， 对 棋局 并 没有 任何 影响 。 


Dy 于 与 隔 地 


一 方 执 黑 子 ， 为 一 方 执 白 子 ， 双 方 交 玲 落 子 ， 执 黑子 的 一 方 先 落 
子 。 沙 子 之 后 棋子 不 能 移动 ， 但 被 对 方 吃 子 的 情况 除外 ， 此 时 这 颗 棋 子 








要 从 棋盘 中 提 走 出 。 要 吃 掉 对 方 的 棋子 ， 需 要 用 已 方 的 棋子 将 它们 完全 
围 住 。 下 面 我 们 讲述 如 何 吃 子 。 


同色 棋子 如 果 相 连 ， 则 被 认为 是 一 个 整体 ， 如 图 2-2 所 示 。 注 意 ， 
只 有 党 看 直线 上 下 、 左 右 连 接 才 算 作 相 连 ， 对 角 线 相 邻 则 不 算 。 任 何 紧 
挨 着 这 个 连接 的 整体 〈 我 们 称 为 一 个 棋 组 ) 的 空白 点 ， 都 算 作 这 个 棋 组 
的 气 。 每 一 组 棋子 都 全 少 需要 一 口气 才能 留 在 棋盘 上 ， 人 否则 惑 会 被 吃 
掉 ， 或 者 说 被 提 子 。 因 此， 对 奔 过 程 中 可 以 通过 封 住 对 方 的 气 来 吃 掉 对 
方 的 棋子 。 
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图 2-2 ”图 中 的 3 颗 黑 子 是 相连 的 。 它 们 在 上 方 有 4 口气 ， 在 图 中 用 小 方 框 标 记 表 示 。 白 方 可 以 在 
这 4 口气 上 均 落 下 白 子 来 吃 掉 黑子 

















如 果 在 对 方 棋 组 的 最 后 一 口气 上 落 子 ， 惑 可 以 吃 掉 这 个 棋 组 ， 并 从 
棋盘 上 提 走 它们 。 这 样 会 重新 释放 出 来 空 点 ， 之 后 双方 都 可 以 再 次 落 子 
(前 提 是 落 子 动作 是 合法 的 ) 。 相 应 地 ， 没 有 气 的 位 置 不 能 沙子 ，[ 除 非 
这 次 落 子 能 提 走 对 方 棋子 。 


吃 子规 则 会 产生 一 个 有 趣 的 现象 。 如 果 一 组 棋子 内 部 有 两 口 完全 独 
立 的 气 ， 那 么 它 束 永远 无 法 被 吃 挥 ， 如 图 2-3 所 示 。 黑 方 无 法 在 A 点 落 
子 ， 因 为 落 子 后 黑子 没有 气 ， 而 且 ， 由 于 B 点 还 剩 下 一 口气 ， 因 此 黑子 











无 法 通过 落 子 提 走 白 子 。 同 理 ， 黑 方 也 不 能 在 B 点 沙子 。 因 此 ， 黑 方 无 
法 一 次 性 封 住 白 方 的 两 口气 。 这 些 内 部 的 气 被 称 为 眼 〈eye) 。 而 C 点 的 
情况 则 有 所 不 同 ， 黑 方 在 C 点 可 以 落 子 并 一 次 提 走 5 颗 白 子 。 即 使 这 个 黑 
人 从 而 完成 吃 子 动 

作 。 这 一 组 白 子 只 有 一 个 眼 ， 因 此 注定 要 在 茶 个 时 刻 被 吃 掉 。 
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图 2-3 ”左边 的 白 子 永远 不 会 被 吃 掉 : 黑 方 既 不 能 在 A 点 落 子 ， 又 不 能 在 B 点 落 子 。 因 为 黑子 落 
下 之 后 立即 变 成 没有 气 的 ， 因 此 落 子 是 非法 动作 。 而 在 右边 ， 黑 方 可 以 在 C 点 落 子 ， 并 一 次 提 
走 5 颗 白 子 






































虽然 没有 明确 写 在 规则 中 ， 但 两 眼 活 棋 是 围棋 策略 中 最 基础 的 组 成 
部 分 。 实 际 上 ， 我 们 只 会 把 这 一 个 集 略 写 进 围棋 机 器 人 的 逻辑 中 ， 而 其 
他 更 局 阶 的 集 略 全 部 者 可 以 通过 机 器 学 习 推 师 出 来 。 


2.2.3 ” 终 盘 与 胜 负 计算 


在 自己 的 回合 中 ， 双 方 都 可 以 选择 不 落 子 ， 从 而 跳 过 当前 回合 。 如 

果 双 方 接连 选择 跳 过 回合 ， 比 赛 束 结束 了 。 在 计算 胜 负 之 前 ， 棋 手 要 先 

辨别 死 横 ， 即 无 法 围 出 两 个 眼 ， 也 无 法 连接 到 其 他 活 棋 的 棋子 。 在 计算 

评分 时 ， 死 棋 的 处 理 方式 与 吃 子 完全 相同 。 如 果 出 现 分 卜 ， 双 方 可 以 通 

过 复 盘 来 解决 。 但 这 种 情况 很 少见 : 如 果 有 任何 状态 不 明 的 棋子 ， 棋 手 
一 般 部 会 先 试 大 解决， 再 选择 跳 过 回 











围棋 的 比赛 目标 是 比 对 方 控制 棋 熏 上 更 大 的 地 盘 。 计 算得 分 有 两 种 
不 同 的 方法 ， 但 得 出 的 结果 通常 是 相同 的 。 





最 常见 的 计算 方法 是 数目 法 。 在 数目 法 中 ， 棋 盘 上 每 一 颗 被 己方 棋 
子 完 全 包围 的 交叉 后 都 记 作 一 分 ， 称 为 一 日 ， 己 方 吃 掉 的 每 笑 棋 子 也 被 
算 作 一 分 ， 加 起 来 谁 的 总 分 高 谁 就 获胜 。 





为 一 种 计算 方法 是 数 子 法 。 在 数 子 法 中 ， 每 一 目 算 一 分 ， 己 方 在 棋 
盘 上 剩 下 的 每 颗 棋子 也 算 一 分 。 除 极其 特殊 的 情况 之 外 ， 这 两 种 方法 得 
到 的 胜 负 结果 一 般 是 相同 的 : 如 果 没 有 过 早 结束 棋局 的 话 ， 双 方 提 子 数 
的 差别 与 双方 棋盘 上 剩 下 的 棋子 数 的 差别 往往 是 一 样 的 。 


数目 法 在 休闲 棋局 中 更 为 第 见 ， 但 对 计算 机 而 言 ， 事 实证 明 数 子 法 
更 为 方便 。 所 以 本 书 中 除非 特别 指明 ， 人 否则 我 们 的 AI 都 假定 用 数 子 法 来 


计算 得 分 。 


此 外 ， 执 白 子 的 一 方 还 要 得 到 额外 的 分 数 ， 以 补偿 后 手 务 势 。 这 种 
补偿 被 称 为 由 了 于。 在 数目 法 中 一 般 贴 6.5 子 ， 而 在 数 子 法 中 一 般 贴 7.5 
子 。 这 里 额外 的 0.5 子 用 来 确保 不 会 出 现 平 局 。 





图 2-4 展 示 了 一 个 9x9 棋 盘 的 终 盘 状态 。 

















图 2-4 9 x 9 棋盘 的 最 终 棋 局 。 死 棋 用 x 标记 。 黑 方 的 地 盘 用 三 角形 标记 ， 白 方 的 地 盘 则 用 小 方 
框 标记 








下 面 是 计算 胜 负 的 流程 。 





(1) 标 有 x 的 棋子 被 认为 是 死 棋 : 即使 棋 手 在 比赛 中 没有 提 走 它 
们 ， 也 要 算 入 提 子 数目 。 我 们 假设 黑 方 在 棋局 前 期 已 经 提 走 了 一 子 《〈 图 
中 未 显示 ) ， 这 样 终 盘 结果 吏 是 黑 方 担 3 子 ， 上 日 方 担 2 子 。 





(2) 黑 方 占领 12 目 空 点 : 包括 用 三 角形 标记 的 10 目 和 和 白 方 死 棋 对 
应 的 2 目 。 


(3) 自 方 占领 17 目 空 点 : 包括 用 小 方 框 标记 的 15 目 和 黑 方 死 棋 对 
应 的 2 目 。 





(4) 除去 死 棋 之 后 ， 黑 方 在 棋盘 上 还 剩 下 27 子 。 





(5) 除去 死 棋 之 后 ， 白 方 在 棋盘 上 还 和 镜 下 25 子 。 





(6) 根据 数目 法 ， 白 方 有 “17 目 空 点 +2 个 提 子 +6.5 贴 子 >， 一 共 25.5 


了 a 提 力 有 "12 目 全 克 直 8 了" 一 此 1 了 











(7) 根据 数 子 法 ， 白 方 有 “17 目 空 点 + 棋盘 上 25 子 +7.5 贴 子 ”， 一 共 
49.5 子 。 黑 方 有 “12 目 空 点 + 棋盘 上 27 子 ”， 一 共 39 子 。 





(8) 两 种 方法 计算 得 出 的 结果 相同 ， 都 是 白 方 胜 10.5 子 。 


棋局 还 可 能 以 态 外 一 种 方式 结束 : 任何 一 方 在 盘 中 任意 回合 里 都 可 
以 选择 直接 认输 。 在 高 手 之 间 的 较量 中 ， 如 果 一 方 明 显 落 后 太 多 ， 选 择 
认输 是 礼貌 的 行为 。 所 以 为 了 让 我 们 的 AI 能 够 成 为 一 个 棋 风 纯 民 的 棋 
手 ， 应 当 教 它 学 习 分 辨认 输 的 时 机 。 


2.2.4 ”理解 动 争 





围棋 规则 中 还 有 一 个 关于 沙子 的 限制 。 为 了 保证 棋局 最 终 能 够 结 
束 ， 那 些 会 让 棋局 回 到 之 前 某 个 状态 的 沙子 动作 是 禁止 的 。 图 2-5 展 示 
了 这 种 情况 。 
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图 2-5” 动 争 的 规则 图 示 








在 图 2-5 中 ， 黑 方刚 刚 吃 挥 一 里 白 子 。 日 方 可 能 想 要 在 A 处 沙子 并 吃 
掉 黑 方刚 刚 落下 的 棋子 ， 但 这 么 做 会 导致 棋局 恢复 到 两 步 之 前 的 状态 。 


因此 ， 白 方 必须 先 在 棋盘 的 其 他 地 方 落 子 。 而 在 那 之 后 ， 如 末日 方 再 回 
到 A 处 吃 掉 黑子 ， 由 于 此 时 整体 棋局 已 经 发 生 了 变化 ， 这 个 动作 就 是 合 
法 的 了 。 当 然 ， 这 样 黑 方 就 有 机 会 保护 脆弱 的 黑子 了 。 想 要 再 吃 挥 这 颗 
黑子 ， 白 方 必须 制造 足够 大 的 动静 ， 吸 引 黑 方 把 注意 力 放 到 棋盘 其 他 的 
地 方 。 


这 种 局 面 称 为 支 争 ， 它 的 英文 名 称 是 ko， 取 目 日 语 的 “ 劫 ? 字 读 音 ， 
表示 永恒 的 意思 。 当 棋局 出 现 动 争 时 ， 棋 手 需 要 采取 特别 的 对 应 策略 ， 
而 这 正 是 前 儿 代 围 棋 程 序 没有 做 好 的 地 方 。 我 们 将 在 第 7 章 中 展示 如 何 
为 神经 网 络 提供 一 些 提示 来 帮助 它们 学 习 动 和 争 策 略 。 这 种 提供 提示 的 方 
法 是 训练 高 效 神经 网 络 的 一 种 通用 技术 。 即 使 我 们 无 法 明确 地 表达 希望 
神经 网 络 学 习 的 规则 ， 也 可 以 通过 调整 输入 的 方式 去 强调 希望 它 注意 的 


情形 。 








225 让 于 











当 对 而 的 双方 实力 相差 较 大 时 ， 有 一 个 简单 的 办 法 可 以 维持 游戏 的 
趣味 性 。 在 棋局 开始 前 ， 较 弱 的 一 方 移 执 黑 子 ， 在 棋盘 中 提前 落下 一 定 
数量 的 黑子 ， 这 些 棋 子 称 为 让 子 。 然 后 较 强 的 一 方 再 执 日 子 开 始 落 子 。 
让 子 比赛 在 终 盘 计算 时 通常 只 贴 0.5 子 ， 这 是 因为 贴 子 的 目的 是 消除 黑 
方 先 手 的 优势 ， 但 让 子 的 关键 残 是 要 给 黑 方 额外 的 优势 ， 因 此 这 两 个 规 
则 是 冲突 的 。 而 最 终 还 保留 贴 0.5 子 则 是 为 了 避免 平 局 的 情况 。 











传统 上 让 子 一 般 落 在 星 位 上 ， 但 也 有 些 棋 手 允许 黑 方 自己 选择 落 子 


的 位 置 。 





2.3 更 多 学 习 资 源 


虽然 2.2 节 已 经 包含 了 围棋 的 全 部 规则 ， 但 其 实 我 们 还 没 触 及 围棋 
的 皮毛 ， 更 不 用 说 它 那 引人入胜 的 丰富 内 涵 了 。 这 些 内 容 超出 了 本 书 的 
范围 ， 但 我 们 辟 励 读者 通过 下 几 盘 棋 来 深入 了 解 。 下 面 列 出 一 些 资源 ， 
帮助 读者 进一步 探索 。 








直接 下 棋 是 深入 了 解围 棋 的 最 佳 方式 。 如 今 比 以 往 任 何 时 候 都 更 容 
易 在 网 上 找到 休闲 棋局 。 例 如 ， 可 以 通过 Web 浏 览 器 在 流行 的 Online Go 
Server (OGS) 里 直接 下 棋 。 即 使 是 刚刚 了 解 规则 的 新 手 ， 也 可 以 通过 
排名 系统 找到 势均力敌 的 对 手 。 其 他 流行 的 围棋 服务 器 还 有 KGS 围 棋 服 
务 嚣 (KGS Go Server) 和 Tygem。 








Sensei's Library 是 一 个 具有 维基 百科 风格 的 参考 资料 网 站 ， 里 面 有 
丰富 的 策略 、 技 巧 以 及 关于 围棋 的 历史 和 轶 事 。 


Janice Kim 的 Learn to Play Go 系列 是 最 好 的 英语 围棋 书 之 一 。 对 于 
新 手 ， 我 们 强烈 推荐 该 系列 书 的 第 1 卷 和 第 2 卷 。 





2.4 我 们 可 以 教会 计算 机 什么 


无 论 计算 机 编程 是 用 来 下 围棋 还 是 下 井 字 棋 (tic-tac-toe》， 大 多 数 
棋盘 洲 戏 AI 的 整体 结构 都 很 类 似 。 本 节 将 对 这 种 整体 结构 进行 概述 ， 并 


找到 需要 用 AI 来 解决 的 具体 问题 。 而 针对 不 同 的 棋 类 游戏 ， 最 佳 的 解决 
方案 可 能 会 用 到 游戏 特有 的 逻辑 ， 或 者 用 到 机 器 学 习 ， 或 者 两 者 兼 而 用 
人 


2.4.1 ”如 何 开局 





在 棋局 的 开局 阶段 ， 由 于 之 后 可 能 的 变化 实在 太 多 ， 因 此 很 难 评估 
某 个 沙子 动作 的 好 坏 。 国 际 象棋 和 围棋 AI 第 第 会 使 用 一 本 开局 棋谱 ， 即 
从 职业 棋局 中 的 开局 记录 抽取 的 数据 库 。 要 创建 这 样 的 数据 库 ， 我 们 需 
要 得 到 很 多 围棋 高 手 的 棋谱 记录 ， 然 后 分 析 它 们 ， 寻 找 其 中 共同 的 棋盘 
布局 。 对 于 每 个 共同 布局 ， 如 果 所 有 棋 手 的 下 一 手 落 子 都 有 强烈 的 共同 
倾 回 例如， 一 两 个 沙子 动作 占据 后 续 动 作 的 80%〉， 束 可 以 把 这 些 动 
作 琴 加 到 开局 棋谱 中 。 之 后 在 对 弈 过 程 中 ， 机 器 人 就 可 以 碍 阅 这 个 棋 
谐 。 如 果 开 局 的 棋局 状态 恰好 能 在 开局 棋 诺 中 找到 ， 那 么 机 器 人 只 需要 
参考 专家 的 动作 就 可 以 了 。 














在 国际 象棋 和 西洋 跳棋 中 ， 随 着 棋 局 的 进展 ， 棋 子 会 逐渐 从 棋盘 中 
移 除 ， 因 此 AI 也 往往 有 类 似 的 残局 数据 库 : 当 棋 盘 上 只 剩 下 几 颗 棋子 
时 ， 可 以 提前 计算 所 有 的 变化 。 但 这 种 技术 并 不 适用 于 围棋 ， 因 为 越 到 
后 期 ， 棋 盘 就 越 接 近 填 满 ， 棋 子 数量 往往 就 越 多 。 





2.4.2 ”搜索 游戏 状态 


树 搜 索 是 棋盘 游戏 AI 背 后 的 核心 理念 。 设 想 一 下 人 类 如 何 玩 策略 游 


戏 。 首 先 ， 我 们 会 考虑 下 一 步 的 可 能 动作 ， 然 后 考虑 对 方 可 能 的 回应 ， 
接 看 还 要 规划 我 们 如 何 应 对 他 们 的 回应 ， 以 此 类 推 。 我 们 要 尺 可 能 长 远 
地 推导 未 来 的 变化 ， 才 能 判断 其 结果 是 否 民 好。 之 后 ， 我 们 再 稍微 回 淹 
一 步 ， 看 看 如 果 采 取 不 同 的 动作 ， 结 果 是 否 会 有 所 变化 。 





这 个 流程 与 游戏 AI 中 使 用 树 搜 索 算 法 的 流程 相似 。 当 然 ， 人 类 在 大 
脑 中 能 够 一 次 处 理 的 变化 数目 并 不 多 ， 而 计算 机 可 以 坚 不 费 力 地 处 理 数 
百 万 种 。 人 类 只 能 依靠 直觉 来 弥补 计算 力 的 不 足 。 经 验 丰富 的 国际 象棋 
或 围棋 选手 能 够 以 可 怕 的 直觉 在 无 穷尽 的 变化 中 发 现 极 少 值得 考虑 的 动 
作 。 








在 国际 象棋 中 ， 最 终 还 是 计算 力 获得 了 胜利 。 但 是 ， 围 棋 AI 的 发 展 
却 经 历 了 一 个 有 趣 的 转折 : 为 了 能 够 与 人 类 顶级 棋 手 苋 争 ， 围 棋 AI 最 终 
把 人 类 的 直觉 引入 了 计算 机 。 


2.4.3 ”减少 需要 考虑 的 动作 数量 








在 游戏 树 搜索 术语 中 ， 某 一 回合 可 能 采取 的 动作 的 数量 和 补 称 为 分 文 
因子 。 


国际 象棋 中 分 文 因子 的 平均 值 约 为 30。 在 棋局 开始 时 ， 棋 手 第 一 步 
可 以 选择 20 种 合法 动作 ， 而 随 着 棋局 的 进展 ， 可 选择 的 数量 会 稍微 增 
加 。 在 这 个 数量 级 上 ， 提 前 预测 4 一 5 步 动作 是 比较 现实 的 。 而 对 那些 前 
景 更 好 的 分 文 ， 国 际 象 棋 引 擎 会 大 大 增加 探索 深度 。 














与 国际 象棋 相 比 ， 围 棋 的 分 文 因子 则 显得 巨大 无 比 。 在 围棋 开盘 的 
第 一 步 ， 就 有 361 个 合法 的 落 子 位 置 ， 而 且 之 后 这 个 数量 减少 的 速度 很 
慢 。 平 均 的 分 支 因 子 大 概 是 每 回合 250 种 合法 落 子 位 置 。 在 这 个 数量 级 
上 ， 仅 仅 提前 预 训 4 步 ， 就 需要 评估 近 40 亿 种 可 能 的 棋局 。 因 此 综 小 淤 
在 的 棋局 数量 至 关 重 要 。 表 2-1 对 比 了 在 国际 象棋 与 围棋 中 分 文 因子 对 
前 、 中 期 棋局 数量 的 影响 。 











表 2-1 棋局 状态 数量 的 近似 值 


预测 步 数 分 文 因子 30 (国际 象棋 ) 分 支 因 子 250《〈 围 棋 ) 
»” 














在 围棋 的 动作 选择 任务 中 ， 基 于 规则 的 预测 效果 就 变 得 很 平庸 了 : 

















想 要 编写 规则 来 可 靠 地 识别 棋盘 上 最 重要 的 区 域 是 非 第 困难 的 。 但 深度 
学 习 非 常 适合 解决 这 个 问题 。 我 们 可 以 用 监督 学 习 来 训练 计算 机 ， 以 模 
仿 人 类 围棋 选手 的 动作 。 





我 们 可 以 从 围棋 高 手 的 棋谱 数据 集合 开始 ， 而 在 线 于 棋 服 务 器 是 提 


供 数据 的 好 帮手 。 接 着 ， 可 以 在 计算 机 上 对 棋谱 进行 复 盘 ， 提 取 每 个 回 
合 的 棋盘 布局 状态 以 及 下 一 步 动 作 。 这 样 就 得 到 了 一 个 训练 集 。 然 后 ， 
采用 合适 的 深度 神经 网 络 ， 就 能 够 以 超过 50% 的 准确 素来 预测 棋 手 的 动 
作 了 。 如 果 构 建 一 个 只 预测 棋 手 动作 的 机 器 人 ， 那 么 它 已 经 是 一 个 可 靠 
的 对 手 了 。 不 仪 如 此 ， 夺 是 把 动作 预测 与 树 搜 索 结 合 起 来 ， 真 正 的 优势 
就 体现 出 来 了 : 预测 的 动作 可 以 继续 为 深入 分 析 提 供 分 文 列表 。 


2.4.4 ”评估 游戏 状态 


分 支 因 子 限制 了 AI 能 够 向 前 预测 的 深度 。 如 果 能 够 一 直 预 测 到 棋局 
结束 ， 就 可 以 知道 谁 会 局 了 ， 这 样 束 很 容易 判断 预测 序列 的 好 坏 。 但 是 
除 在 井 字 棋 中 之 外 ， 我 们 在 任何 稍微 复杂 一 些 的 棋 关 游戏 中 要 做 到 这 一 
点 都 不 太 现实 : 可 能 的 变化 数量 实在 是 太 大 了 。 我 们 只 能 在 预测 右 干 步 
之 后 停 下 来 ， 用 这 个 并 不 完整 的 预测 序列 来 进行 选择 。 因 此 需要 记 住 这 
次 预测 最 终 所 达到 的 棋盘 布局 ， 并 给 它 打 一 个 分 数 。 之 后 在 分 析 预 测 过 
的 所 有 潜在 变化 中 ， 选 择 分 数 最 高 的 棋局 所 对 应 的 动作 。 但 如 何 计 算 棋 
盘 布局 的 分 数 本 身 束 是 一 个 理 手 的 问题 ， 我 们 称 之 为 棋盘 评估 问题 。 














国际 象棋 AI 往往 使 用 棋 手 能 够 理解 的 逻辑 作为 棋盘 评估 的 基础 。 例 
如 一 个 简单 的 规则 :， 如果 对 方 吃 掉 我 的 兵 ， 而 我 吃 掉 了 对 方 的 车 ， 那 么 
对 我 来 说 是 有 利 的 。 顶 级 的 国际 象棋 引擎 则 会 构造 远 超 这 种 程度 的 复杂 
规则 ， 例 如 ， 考 虑 棋子 会 走 到 棋盘 哪些 位 置 ， 以 及 有 哪些 棋子 会 阻挡 它 
们 的 行动 。 








而 在 围棋 中 ， 棋 盘 评 估 则 可 能 比 落 子 动作 选择 更 加 困难 。 围 棋 游 戏 
的 目标 是 占领 更 多 地 盘 ， 但 计算 地 盘 的 难度 出 奇 的 大 : 地 盘 的 边界 往往 
要 等 到 终 盘 阶 段 才 会 变 得 清晰 。 记 录 提 子 数 量 也 没有 多 大 帮助 ， 有 时 候 
直到 终 盘 ， 双 方 都 没 吃 掉 几 颗 棋子 。 因 此 棋盘 评估 是 人 类 直觉 远 胜 于 机 
器 的 又 一 个 领域 。 








同样 ， 深 度 学 习 也 给 这 个 领域 带 来 了 重大 的 突破 。 用 于 落 子 动作 选 
择 的 神经 网 络 ， 也 可 以 通过 训练 用 于 棋盘 评估 。 不 同 的 是 ， 这 时 训练 目 
标 不 再 是 选择 哪 一 个 动作 ， 而 是 预测 哪 一 方 会 局 。 我 们 可 以 修改 神经 网 
络 的 设计 ， 改 为 预测 获胜 的 概率 ， 这 样 这 个 概率 值 就 可 以 作为 评估 当前 
的 棋盘 的 分 数 了 。 








2.5 如何 评 估 围 棋 AI 的 能 


在 开发 围棋 AI 时 ， 人 们 自然 会 想 要 知道 它 的 能 力 有 多 强 。 传 统 的 日 
式 评级 系统 为 大 部 分 围棋 棋 手 所 熟悉 ， 因 此 我 们 也 可 以 用 这 个 标准 去 衡 
量 机 器 人 。 得 到 评级 的 唯一 办 法 就 是 与 其 他 棋 手 比赛 ， 为 此 可 以 寻找 其 
他 的 AI 或 者 人 类 棋 手 作为 对 手 。 


2.5.1 传统 围棋 评级 
围棋 选手 一 般 都 使 用 传统 日 式 评级 系统 ， 棋 手 会 被 评 为 某 一 级 〈 初 


学 者 ) 或 者 某 一 段 〈 专 家 ) 。 其 中 段位 评级 又 分 为 两 种 : 业余 段位 和 职 
业 段 位 。 最 强 的 级 位 是 1 级 ， 数 字 越 大 的 级 别 越 弱 。 而 段位 的 数字 则 相 


反 : 1 段 强 于 1 级 ， 之 后 数字 越 大 的 段位 则 越 强 。 对 业余 棋 手 来 说 ， 传 统 
上 最 高 段位 是 7 段 。 业 余 棋 手 可 以 从 地 方 围棋 协会 获得 段位 ， 而 在 线 服 
务 器 也 会 跟踪 评价 棋 手 的 评级 。 表 2-2 展 示 了 级 位 /段位 的 排列 。 


表 2-2 传统 围棋 评 





演 


级 位 /段位 














会 高 手 ， 接 近 职 业 水 准 


职业 1 段 全 9 段 世界 上 最 强 的 棋 手 


业余 评级 的 差距 通常 可 以 通过 双方 比赛 的 让 子 数 量 体 现 。 例 如 ， 如 
果 Alice 是 2 级 而 Bob 是 5 级 ， 那 么 Alice 通 常 让 3 颗 子 给 Bob， 这 样 他 们 才 有 
均等 的 获胜 机 会 。 














而 职业 段位 的 排 法 则 略 有 不 同 ， 职 业 段 位 更 像 是 一 种 头衔 。 地 方 围 
棋 协 会 根据 重要 锦标 者 的 成 绩 将 职业 段位 授予 项 级 棋 手 ， 并 终 里 持 有 。 











业余 段位 和 职业 段位 无 法 直接 比较 ， 但 我 们 大 可 放心 地 认为 任何 职业 段 
位 棋 手 至 少 不 会 弱 于 业余 7 段 棋 手 ， 而 顶级 职业 棋 手 则 明显 强大 得 多 。 








2.5.2 ”对 围 槛 AI 进行 基准 测试 


有 个 简单 的 办 法 可 以 估计 机 器 人 的 棋 力 ， 就 是 与 已 知 评级 的 其 他 机 
器 人 进行 对 决 。GNU Go 和 Pachi 等 开源 围棋 引擎 都 是 良好 的 测试 基准 。 
GNU Go 的 评级 大 约 相当 于 5 级 ， 而 Pachi 大 约 是 业余 1 段 〈 根 据 机 器 提供 
的 计算 能 力 ，Pachi 的 强度 会 略 有 变化 ) 。 因 此 ， 如 果 机 器 人 与 GNU Go 
对 诀 100 次 ， 并 且 能 赢 约 50 局 ， 那 么 这 个 机 器 人 差不多 也 是 5 级 水 准 。 


要 获得 更 精确 的 评级 ， 可 以 让 围棋 AI 登录 具有 评级 系统 的 公共 围棋 
服务 器 ， 并 参与 线 上 对 决 。 几 十 场 比赛 以 后 应 该 就 能 够 得 到 一 个 合理 的 
估计 了 了 。 


2.6 小结 





。 游戏 是 人 工 智能 的 热门 话题 ， 因 为 它 能 够 创造 规则 已 知 的 可 控 环 
境 。 

当今 最 强大 的 围棋 AI 依靠 的 是 机 器 学 习 ， 而 不 是 游戏 专属 的 领域 知 
识 。 基 于 规则 的 围棋 AI 在 历史 上 一 直 都 不 太 强 大 ， 其 原因 可 能 是 转 
棋 要 考虑 的 变化 的 可 能 性 数目 巨大 。 

围棋 中 有 两 个 环节 可 以 应 用 深度 学 习 : 落 子 动作 选择 与 棋盘 评估 。 
落 子 动作 选择 的 关键 问题 ， 古 如 何 缩小 在 特定 棋局 中 需要 考虑 的 可 
能 后 续 动 作 数量 。 如 果 这 一 步 做 得 不 够 好 ， 半 棋 AI 就 必须 得 对 大 量 
可 能 的 分 文 做 出 预测 。 














。 棋盘 评估 问题 指 的 是 估计 哪 一 方 领先 以 及 领先 多 少 的 问题 。 如 果枝 
盘 评 估 做 得 不 够 好 ， 围 棋 AI 就 无 法 评判 哪 一 个 分 支 可 能 更 为 有 利 
下 

。 要 测试 围棋 AI 的 强度 ， 可 以 让 它 与 那些 已 知 评级 的 机 器 人 “如 
GNU Go 或 Pachi) 进行 对 决 。 





[1] 因此 吃 子 的 动作 也 被 称 为 提 子 。 一 一 译 者 注 


第 3 草 “” 实 现 第 一 个 围棋 机 堪 人 


本 章 主要 内 容 
。 在 Python 中 实现 围棋 棋盘 。 
。 实现 落 子 动作 序列 ， 并 模拟 一 盘 棋局 。 
。 编码 实现 围棋 规则 ， 并 确保 落 子 动作 的 合法 性 。 
。 构建 一 个 简单 的 机 器 人 ， 让 它 可 以 与 自己 的 副本 进行 对 决 。 
。 与 机 器 人 进行 一 场 完 整 的 对 决 。 


在 本 章 中 ， 我 们 将 构建 一 个 灵活 的 Python 库 ， 它 提供 数据 结构 来 表 
示 围 棋 游 戏 ， 并 提供 算法 来 执行 围棋 规则 。 第 2 章 我 们 已 经 看 到 ， 围 棋 
规则 其 实 很 简单 。 但 为 了 在 计算 机 上 实现 它 ， 我 们 必须 仔细 考虑 所 有 的 
边界 情形 。 如 果 读 者 是 一 名 围棋 新 手 ， 或 者 想 要 温习 围棋 规则 ， 请 先 读 
完 第 2 蔓 。 本 章 内 容 是 纯 技 术 性 的 描述 ， 因 此 要 预先 对 围棋 规则 有 足够 
的 了 解 ， 才 能 够 完整 地 体会 其 中 的 技术 细节 。 











围棋 规则 的 表达 是 创建 智能 机 堪 人 的 基础 ， 因 此 非常 重要 。 机 器 人 
需要 能 够 先 区 分 合法 动作 与 非法 动作 ， 然 后 才能 去 学 习 判 断 哪些 是 好 的 
动作 ， 哪 些 是 不 好 的 动作 。 


读者 在 读 完 本 章 之 后 ， 应 当 能 够 实现 上 自己 的 第 一 个 围棋 机 器 人 。 这 
个 机 器 人 暂时 还 很 弱 ， 但 它 已 经 掌握 了 所 有 必需 的 围棋 知识 ， 并 将 在 接 
下 来 的 章节 中 逐步 进化 成 更 强大 的 版 本 。 








首先 ， 我 们 将 对 围棋 棋盘 做 完整 的 介绍 ， 并 解释 计算 机 围棋 所 需 的 
基本 概念 : 什么 是 棋 手 ， 什 么 是 棋子 ， 什 么 是 落 子 动作 等 。 接 下 来 ， 我 
们 将 探索 围棋 的 对 春 流 程 : 计算 机 如 何 快速 检查 需要 提 走 哪些 棋子 ， 何 
时 应 用 动 争 规则 ， 何 时 结束 棋局 ， 以 及 如 何 结束 ， 等 等 。 我 们 将 在 本 章 


中 回答 这 些 问 题 。 











3.1 在 Python 中 表达 围棋 游戏 


围棋 游戏 是 在 正方 形 棋盘 上 进行 的 。 通 常 ， 初 学 者 先 从 9x9 或 13x13 
的 棋盘 开始 下 棋 ， 而 高 级 棋 手 和 专业 棋 手 则 往往 在 19x19 的 标准 棋盘 上 
对 大 。 原 则 上 ， 围 棋 对 弈 可 以 在 任何 扩 二 的 棋盘 上 进行 。 为 围棋 实现 一 
个 正方 形 网 格 的 棋盘 非常 人 简单， 但 有 许多 复杂 的 细 市 需要 处 理 。 


我 们 会 一 步 步 构建 一 个 称 为 dlgo 的 Python 模 块 ， 用 来 表达 围棋 游 
戏 。 在 本 章 中 ， 我 们 将 创建 程序 文件 ， 实 现 相关 的 类 和 函数 ， 最 终 完成 
属于 自己 的 第 一 个 机 器 人 。 本 章 和 后 面 章 节 的 所 有 代码 都 可 以 在 本 书 的 
GitHub 上 找到 。 





虽然 克隆 这 个 代码 库 以 供 参 考 是 理 所 应 当 的 事情 ， 但 本 音 中 我 们 还 
是 强烈 建议 从 零 开 始 创建 程序 文件 ， 以 体验 代码 库 逐 步 构建 的 过 程 。 在 
本 书 GitHub 代 码 库 的 master 分 支 中 ， 包 含 了 书 中 用 到 的 全 部 代码 (还 有 





更 多 其 他 内 容 ) 。 而 且 从 本 章 开 始 ， 每 一 章 都 有 一 个 对 应 的 Git 分 文 ， 
只 包含 对 应 章 所 需 的 代码 。 例 如 ， 本 章 的 代码 可 以 在 分 文 chapter_3 中 找 
到 ， 其 他 章节 的 分 文 命名 规则 也 一 样 。 注 意 ， 我 们 还 为 所 有 章节 的 代码 
提供 了 完善 的 测试 代码 ， 也 放 在 GitHub 代 码 库 中 。 





要 构建 一 个 能 够 表达 围棋 游戏 的 Python 库 ， 需 要 足够 灵活 的 数据 模 
型 来 文 持 下 列 使 用 场景 。 


。 跟踪 与 人 类 棋 手 进行 比赛 的 进度 。 

。 跟踪 两 个 机 器 人 之 间 进 行 比赛 的 进度 。 这 个 使 用 场景 看 起 来 似乎 和 
第 一 个 场景 完全 相同 ， 但 事实 证 明 它 们 还 是 存在 着 一 些 细微 差别 
的 。 其 中 最 值得 注意 的 一 点 是 ， 简 单 的 机 器 人 很 难 判断 棋局 应 该 在 
什么 时 候 结束 。 由 于 在 后 面 的 草 节 中 ， 用 两 个 简单 的 机 器 人 进行 互 
相对 弈 是 一 项 非常 重要 的 技术 ， 因 此 值得 在 这 里 单独 强调 一 下 。 

。 比较 同一 个 棋盘 布局 下 多 个 可 能 的 预期 动作 序列 。 

。 导入 棋谱 记录 ， 并 根据 它们 生成 训练 数据 。 




















我 们 先 从 几 个 简单 的 概念 开始 ， 例 如 什么 是 棋 手 ， 什 么 是 落 子 动作 
等 。 有 了 这 些 概念 ， 我 们 就 可 以 在 后 面 的 章节 中 介绍 如 何 实现 上 述 应 用 
场景 了 。 





首先 创建 一 个 新 文件 夹 dgo， 并 在 文件 夹 中 新 建 一 个 空 的 
_ init .py 文件 ， 这 样 就 初始 化 了 一 个 Python 模块 。 接 着 再 创建 两 个 文 
件 ， 分 别 为 gotypes.py 和 goboard_slow.py， 用 来 存储 棋盘 和 对 弈 的 功能 
逻辑 。 如 果 读 者 是 按 上 述说 明 完 成 的 ， 此 时 在 自己 的 计算 机 上 看 到 的 文 
件 夹 结构 应 如 下 所 示 : 





dlgo 
__init .py 


gotypes.py 
goboard slow.py 





在 围棋 对 窒 中 ， 黑 方 与 日 方 轮流 落 子 ， 因 此 可 以 用 enum 类 型 来 表示 
棋子 的 颜色 。P1layer 可 以 选择 执 black 或 执 white。 每 一 回合 棋 手 落 子 
之 后 ， 调 用 Player 实 例 上 的 other 方法 来 进行 切换 。 在 gotypes.py 文 件 
中 写 入 Player 类 ， 如 代码 清单 3-1 所 示 。 








mm 


























代码 清单 3-1 用 enum 表 示 棋 了 








import enum 


class Player(enum.Enum) : 
black = 1 
white = 2 


@property 
def other(self): 
return Player.black if self == Player.white else Player.white 





我 们 在 本 书 中 使 用 的 Python 版 本 是 Python 3。 而 选择 Python 3 的 原因 
之 一 ， 就 是 它 提 供 了 许多 现代 语言 特性 ， 例 如 这 里 用 到 的 枚 举 就 是 
Python 3 中 标准 库 的 一 部 分 。 





接 下 来 ， 要 在 Python 里 表示 棋盘 上 的 坐标 ， 元 组 是 一 个 显而易见 的 
选择 。 把 代码 清单 3-2 中 的 Point 类 也 写 入 gotypes.py 文 件 中 。 























代码 清单 3-2 ”用 元 组 表示 棋盘 上 的 交叉 点 























from collections import namedtuple 


class Point(namedtuple('Point', 'row col')): 
def neighbors(self): 


return [ 
Point(self.row - 1，Sself.col)， 
Point(self.row + 1, self.col), 
Point(self.row, self.col - 1)， 
Point(self.row, self.col + 1), 





这 里 我 们 用 命名 元 组 namedtuple， 束 可 以 在 访问 交叉 点 的 具体 坐 
标 时 ， 用 point.row 和 point.col 代 蔡 point[6] 和 point[1]， 这 样 可 
以 提高 代码 的 可 读 性 。 





接着 ， 我 们 还 需要 一 个 数据 结构 来 表示 棋 手 在 回合 中 可 能 采取 的 动 
作 。 通 第 情况 下 每 一 回合 棋 手 应 当 在 棋盘 上 落下 一 颗 棋 子 ， 但 也 可 以 选 
择 跳 过 回合 ， 甚 至 直接 认输 。 尊 循 美国 围棋 协会 (American GO 
Association，AGA) 的 惯例 ， 我 们 使 用 术语 动作 (move) 来 表示 这 3 种 
行动 中 的 任何 一 个 ， 而 用 落 子 (play) 表示 落下 一 颗 棋 子 。 因 此 ，Move 
类 需要 对 落 子 (play) 、 跳 过 (pass) 或 认输 (resign) 3 种 类 型 的 动 
作 进 行 编码 ， 并 确保 动作 只 能 是 这 3 种 类 型 中 的 一 个 。 在 实际 棋局 中 ， 
需要 传递 一 个 Point 对 和 象 来 指定 落 子 的 位 置 。 我 们 将 代码 清单 3-3 中 的 
Move 类 添加 到 文件 goboard_slow.py 中 。 








代码 清单 3-3 ”设置 动作 : 落 子 、 跳 过 或 认输 











import copy 
from dlgo.gotypes import Player 


class Move(): <--- 这 里 可 以 设置 棋 手 在 回合 中 所 能 够 采取 的 任 一 种 动作 : is_play 
、is_pass 或 is_resign 
def _ init (self, point=None, is pass=False, is resign=False): 
assert (point is not None) ^ is pass ^ is resign 
self.point = point 
self.is play = (self.point is not None) 
self.is pass = is pass 
self.is resign = is resign 








@classmethod 
def play(cls, point): <--- 这 个 动作 是 在 棋盘 上 落下 一 颗 棋子 
return Move(point=point) 














@classmethod 

def pass turn(cls): <--- 这 个 动作 是 跳 过 回合 
return Move(is pass=True) 

@classmethod 

def resign(cls): <--- 这 个 动作 是 直接 认输 





return Move(is resign=True) 











在 后 面 的 章节 中 ， 应 用 代码 通常 不 需要 直接 调用 Move 的 构造 函数 ， 
而 是 通过 调用 Move .Play、Move.pass_turn 或 Move.resign 来 构造 一 
个 动作 实例 。 


注意 ， 到 目前 为 止 ，Player、Point 和 Move 类 都 是 普通 数据 类 
型 。 它 们 虽然 是 表达 棋盘 的 基础 类 型 ， 但 本 身 并 不 包含 任何 游戏 逻辑 。 
我 们 这 么 做 是 为 了 将 数据 类 型 与 游戏 逻辑 分 离 。 在 后 面 的 章节 里 中 ， 读 
者 应 当 能 逐渐 体会 到 这 么 做 的 好 处 。 





接 下 来 ， 我 们 将 利用 前 面 实 现 的 3 个 类 来 实现 以 下 两 个 类 ， 用 于 更 
新 游戏 状态 : 








。 Board 类 一 一 表示 棋盘 ， 人 负责 沙子 与 吃 子 的 逻辑 ; 
。 GameState 类 一 一 表示 棋局 游戏 状态 ， 包 括 棋 盘 上 所 有 的 棋子 分 
布 、 当 前 回合 执 子 方 以 及 前 一 个 游戏 状态 。 


3.1.1 实现 围棋 棋盘 


在 转向 GameSstate 类 之 前 ， 让 我 们 先 实 现 Board 类 。 最 简单 的 办 法 
可 能 是 创建 一 个 19x19 的 双 层 数组 ， 用 来 跟踪 棋盘 中 每 一 个 交叉 点 的 状 
态 。 这 是 一 个 很 好 的 起 点 。 接 着 需要 考虑 用 于 检测 提 子 时 机 的 算法 。 前 
面 说 过 ， 单 颗 棋子 的 气 数 由 相 邻 的 空 点 数 决定 ， 如 果 一 颗 棋 子 相 邻 4 口 
气 都 被 对 方 棋子 所 占据 ， 就 会 由 于 气 尽 而 被 吃 掉 ， 而 那些 较 大 的 相连 棋 
组 ， 检 测 它 们 的 气 就 更 加 困难 了 。 例 如 ， 在 落下 一 颗 黑 子 之 后 ， 必 须 检 
查 它 所 有 相 邻 的 白 子 ， 看 看 黑子 是 否 能 够 吃 掉 它 并 提 子 。 有 具体 来 说 ， 必 
须 检 查 以 下 几 个 内 容 。 








(1) 检查 相 邻 的 棋子 是 否 只 剩 一 口气 。 


(2) 接着 检查 这 些 邻 大 的 相 邻 棋子 是 否 还 有 人气 剩余 。 








(3) 继续 检查 这 些 邻 导 的 邻居 的 相 邻 棋子 ， 如 此 循环 。 





这 个 过 程 可 能 需要 数 百 个 步 又 才能 完成 。 想 象 一 下 ， 在 一 个 已 经 经 
过 200 步 动作 的 棋局 中 ， 一 条 大 龙 晓 虹 穿 过 对 方 领地 的 情形 。 为 了 加 快 
检查 速度 ， 我 们 可 以 把 所 有 相连 的 棋子 作为 一 个 整体 来 对 待 ， 并 直接 跟 
踩 它们 的 状态 。 


3.1.2 在 围棋 中 跟踪 相连 的 棋 组 : 棋 链 
上 一 节 中 我 们 看 到 ， 独 立 检查 各 棋子 会 增加 计算 的 复杂 度 。 我 们 可 


以 反 其 道 而 行 ， 将 同色 相连 的 棋子 组 合成 一 个 整体 ， 同 时 跟踪 这 个 整体 
的 状态 以 及 它们 的 气 。 这 样 做 可 以 在 实现 棋盘 逻辑 时 获得 更 高 的 效率 。 


我 们 可 以 把 一 组 同色 相连 的 棋子 称 为 一 条 棋 链 (string of stones) ， 
或 者 简称 一 条 链 (string) ， 如 图 3-1 所 示 。 











图 3-1 在 这 个 棋盘 中 ， 黑 方 有 3 条 棋 链 ， 晶 方 有 两 条 。 日 方 较 大 的 棋 链 有 6 口气 ， 而 较 小 的 棋 链 
〈 即 单 颗 棋子 ) 只 有 3 口气 




















我 们 可 以 用 Python 的 set 类 来 高 效 地 实现 这 个 结构 ， 如 代码 清单 3-4 
中 的 Gostring 所 示 。 这 个 类 也 放 在 goboard_slow.py 文 件 中 。 

















代码 清单 3-4 ”使 用 set 编 码 棋 链 





























class GoString(): <--- ， 棋 链 是 一 系列 同色 且 相 连 的 棋子 
def _ init (self, color, stones, liberties): 
self.color = color 
self.stones = set(stones) 
self.liberties = set(liberties) 





def remove liberty(self, point): 
self.liberties.remove(point) 


def add liberty(self, point): 
self.liberties.add(point) 

















def merged with(self, go_string): <--- 返回 一 条 新 的 棋 链 ， 包 含 两 条 棋 链 
的 所 有 棋子 
assert go_string.color == self.color 


combined_ stones = self.stones | go_string.stones 
return GoString( 

self.color., 

combined_ stones, 


(self.liberties | go string.liberties) - combined stones) 


@property 
def num liberties(self): 
return len(self.1liberties) 


def eq (self, other): 
return isinstance(other, GoString) and \ 


self.color == other.color and \ 
self.stones == other.stones and \ 
self.liberties == other.1liberties 








注意 ，GoString 直 接 跟 踪 、 维 护 它 自 己 的 气 数 。 我 们 可 以 调 








用 num_liberties 来 获取 任意 交叉 点 处 的 气 数 ， 这 比 前 面 提 到 的 从 单 颗 
棋子 开始 逐步 查询 的 方法 高 效 很 多 。 





此 外 ， 我 们 还 可 以 调用 remove 1iberty 和 add_1iberty 来 为 特定 
棋 链 增加 或 减少 气 数 。 当 对 方 在 这 条 棋 链 相 邻 的 地 方 落 子 时 ， 棋 链 的 气 
通常 会 减少 ， 而 当 这 条 棋 链 或 已 方 其 他 棋 链 吃 掉 对 方 棋子 的 时 候 ， 棋 链 


最 后 ， 注 意 Gostring 的 merged_with 方 法 ， 当 一 次 落 子 把 两 颗 棋 
子 连 接 起 来 的 时 候 ， 需 要 调用 这 个 方法 。 


3.1.3 ”在 棋盘 上 落 子 和 提 子 


在 讨论 了 棋子 和 棋 链 之 后 ， 下 一 步 自 然 是 讨论 如 何在 棋盘 上 落 子 。 
使 用 代码 清单 3-4 中 的 GoString 类 ， 落 子 动作 的 算法 如 下 所 示 。 


(1) 合并 任何 同色 且 相 邻 的 棋 链 


(2) 减少 对 方 的 所 有 相 邻 棋 链 的 气 。 





(3) 如 果 对 方 的 某 条 棋 链 气 斥 了 ， 则 需要 提 走 它们 。 


此 外 ， 如 有 果 新 生成 的 棋 链 气 数 为 0， 则 需要 拒绝 这 个 动作 。 这 几 个 
功能 可 以 目 然 地 实现 在 Board 类 中 ， 我 们 把 它 放 在 goboard_slow.py 文 件 
中 。 我 们 允许 创建 任意 行 数 和 列 数 的 棋盘 ， 只 要 在 初始 化 时 给 定 合 适 的 
num_rows 和 num_cols 参 数 即 可 。Board 类 内 部 用 私有 变量 _grid 来 跟 
踩 棋 盘 状态 ， 它 是 一 个 用 于 存储 棋 链 的 字典 。 首 先 ， 我 们 指定 棋盘 的 尺 
寸 ， 初 始 化 一 个 棋盘 实例 ， 如 代码 清单 3-5 所 示 。 











代码 清单 3-5 创建 围棋 棋盘 类 Board 的 实例 








class Board(): +--- ”棋盘 初始 化 为 一 个 空 网 格 ， 其 尺寸 由 行 数 和 列 数 这 两 个 参数 决 
定 


def _ init (self, num rows, num cols): 


self.num rows 
self.num cols 


= num_rows 
self. grid = {} 


num_cols 





接 下 来 ， 我 们 讨论 Board 类 中 表示 落 子 动作 的 方法 place_stone。 
在 这 个 方法 里 ， 首 先 需要 检查 某 个 给 定 交 叉 点 的 相 邻 棋子 来 看 气 数 ， 如 
代码 清单 3-6 所 示 。 











代码 清单 3-6 ”检查 相 邻 点 的 气 数 




















def place_ stone(self, player, point): 

assert self.is on grid(point) 

assert self. grid.get(point) is None 

adjacent_ same color = [|] 

adjacent opposite color = [] 

liberties = [|] 

for neighbor in point.neighbors(): <--- 首先 需要 检查 这 个 交叉 点 的 
直接 相 邻 点 














if not self.is on grid(neighbor): 
continue 

neighbor_ string = self. grid.get(neighbor) 

if neighbor_string is None: 
liberties.append(neighbor) 

elif neighbor string.color == player: 
if neighbor_ string not :in adjacent same color: 

adjacent same color.append(neighbor_ string) 


else: 
if neighbor_string not :in adjacent opposite color: 
adjacent opposite color.append(neighbor string) 
new_string = GoString(player, [point], liberties) 








注意 ， 代 人 码 清单 3-6 中 的 前 两 行 调用 了 两 个 实用 工具 方法 来 检查 这 
个 交叉 点 是 否 在 棋盘 的 边界 肉 ， 以 及 这 个 交叉 点 上 是 售 已 经 存在 棋子 。 
这 两 个 方法 定义 如 代码 清单 3-7 所 示 。 
































代码 清单 3-7 沙子 与 提 子 的 实用 工具 方法 





def is on grid(self, point): 
return 1 <= point.row <= self.num rows and \ 
1 <= point.col <= self.num cols 








def get(self, point): <--- 返回 棋盘 某 个 交叉 点 的 内 容 : 如 果 该 交叉 点 已 经 
落 子 ， 则 返回 对 应 的 Player 对 象 ， 否则 返回 None 
string = self. grid.get(point) 
if string is None: 
return None 
return string.color 











def get_go_string(self, point): ee Ee ee t 链 ， 如 
果 棋 链 中 的 一 颗 棋 子 落 在 这 个 交叉 点 上 ， 则 返回 它 的 GoString 对 象 ; 否则 返回 None 
string = self. grid.get(point) 
if string is None: 
return None 
return string 




















注意 ， 还 需要 定义 一 个 get_go_string 方 法 ， 以 返回 交叉 点 对 应 的 
棋 链 。 这 个 功能 很 通用 ， 而 且 它 对 于 防止 目 吃 这 种 特殊 情形 也 特别 有 
用 ，3.2 市 中 将 详细 讨论 。 





接着 继续 补充 代码 清单 3-6 中 定义 的 place_stone 方 法 ， 
在 new_string 初 始 化 之 后 ， 我 们 实现 本 节 开 头 所 列 出 的 3 步 操作 ， 如 代 
码 清单 3-8 所 示 。 




















代码 清 





3-8 ”继续 对 place_stone 的 定义 








same_color string in adjacent same color: <--- ”合并 和 有 








new_string = new _ string.merged with(same color_ string) 
new_string point in new_ string.stones: 
self. grid[new string point] = new_ string 
for other_color_string in adjacent opposite color: <--- ”减少 对 
方 相 邻 棋 链 的 气 
other_color_string.remove liberty(point) 
for other_color_string in adjacent opposite color: <--- 如 果 对 
方 的 菜 条 棋 链 气 尽 了 ， 就 提 走 它们 
if other color_ string.num liberties == 
self. remove string(other color string) 























现在 ， 我 们 的 棋盘 定义 中 只 剩 下 代码 清单 3-8 最 后 一 行 调用 的 
remove_string 还 没有 定义 了 。 它 的 作用 是 提 走 一 条 棋 链 中 所 有 的 棋 
子 ， 这 其 实 相 当 简 单 ， 如 代码 清单 3-9 所 示 。 但 还 有 一 点 需要 注意 ， 在 
提 走 对 方 的 棋 链 时 ， 可 能 会 导致 其 他 棋子 气 数 增加 。 例 如 ， 在 图 3-2 中 
可 以 看 到 ， 如 果 黑 方 提 走 白 方 棋子 ， 束 能 够 为 黑 方 的 每 条 棋 链 都 增加 一 
加 所 


























代码 清单 3-9 ”继续 对 place_stone 的 定义 

















def remove string(self, string): 
for point in string.stones : 





for neighbor in point.neighbors(): <--- 提 走 一 条 棋 链 可 以 为 其 
他 棋 链 增加 气 数 

















neighbor_ string = self. grid.get(neighbor) 
if neighbor_string is None: 

continue 
if neighbor string is not string: 


neighbor_string.add liberty(point) 
self. grid[point] = None 








这 样 ， 我 们 就 完成 了 对 棋盘 类 Board 的 实现 。 









































黑 方 有 两 条 棋 链 : 一 条 有 黑 方 提 走 一 颗 白 子 ， 从 而 给 


1 口气 ， 另 一 条 有 4 口气 。 这 两 条 棋 链 各 增加 1 口气 。 


图 3-2 ” 黑 方 可 以 提 走 一 颗 白 子 ， 从 而 为 相 邻 的 棋 链 各 增加 一 口气 


3.2” 跟 躁 游戏 状态 并 检查 非法 动作 





现在 我 们 已 经 实现 了 棋盘 类 Board 落 子 与 提 子 的 规则 ， 接 下 来 继续 
实现 下 棋 的 逻辑 。 首 先 需 要 用 一 个 GameState 类 来 捕获 当前 的 游戏 状 
态 。 粗 略 地 说 ， 洲 戏 状 态 包 括 棋盘 中 棋子 的 布局 、 下 一 回合 的 执 子 方 、 
上 一 回合 的 游戏 状态 以 及 上 一 步 动 作 。 代 码 清单 3-10 中 展示 了 
GameSstate 类 定义 的 开头 部 分 ， 本 贡 后 面 还 会 继续 为 它 添加 更 多 的 功 
能 。 与 之 前 一 样 ， 我 们 把 这 个 类 放 在 goboard_slow.py 文 件 中 。 


代码 清单 3-10 ”存储 围棋 的 游戏 状态 








class GameStatel(): 
def _init (self, board, next player, previous, move): 
self.board = board 
self.next player = next player 
self.previous state = previous 
self.last move = move 


def apply_move(self, move): +--- 执行 落 子 动作 之 后 ， 返 回 新 的 GameState 





对 象 
if move.is play: 
next board = copy.deepcopy(self.board) 
next board.place_ stone(self.next player, move.point) 
else: 
next board = self.board 
return GameState(next board, self.next player.other, self, move) 


@classmethod 
def new game(cls, board size): 
if isinstance(board size, int): 
board size = (board size, board size) 
board = Board(*board size) 
return GameState(board, Player.black, None, None) 





至 此 ， 我 们 已 经 可 以 诀 定 比赛 何 时 结束 了 。 只 要 在 GameState 类 中 
添加 代码 清单 3-11 中 的 代码 即 可 。 

















代码 清单 3-11 决定 围棋 比赛 结束 的 时 机 











def is over(self): 
if self.last move is None: 
return False 
if self.last move.is resign: 


return True 


second last move = self.previous state.last move 
if second last move is None: 
return False 
return self.last move.is pass and second last move.is pass 





至 此 我 们 已 经 实现 了 如 何 使 用 apply_move 执 行 一 个 落 子 动作 并 更 
新 游戏 状态 ， 接 下 来 可 以 编写 代码 来 识别 落 子 动作 的 合法 性 了 。 人 类 棋 
手 可 能 偶尔 不 小 心 落 错 子 ， 但 机 器 人 一 旦 做 出 了 非法 落 子 动作 ， 那 一 定 
是 因为 它 还 不 懂得 规则 。 需 要 检查 3 个 规则 : 

















。 人 确认 要 落 子 的 交叉 点 是 空 的 ; 
。 检查 落 子 是 否 会 导致 目 己 气 尽 ; 


。 确认 沙子 不 违反 劫 争 规则 。 








一 点 很 容易 实现 ， 但 其 他 两 点 处 理 起 来 相对 赫 手 ， 需 要 单独 讨 


3.2.1 自 吃 








当 棋 链 只 剩 下 一 口气 时 ， 如 果 在 这 口气 所 对 应 的 交叉 点 上 沙子 ， 导 
致 己方 气 尽 而 被 提 走 ， 我 们 称 之 为 目 吃 〈self-capture) 。 例 如 ， 在 图 3-3 
中 ， 黑子 的 前 景 堪忧 。 

















图 3-3 ”在 这 个 棋局 中 ，3 颗 黑子 只 剩 一 口气 ， 即 有 小 方 框 标记 的 交叉 点 。 如 果 遵 循 禁 止 自 吃 的 
规则 ， 则 不 允许 黑 方 在 这 点 落 子 。 相 反 地 ， 白 方 则 可 以 在 这 个 标记 点 上 落 子 并 吃 掉 黑 方 3 颗 子 

















日 方 随时 可 以 在 标记 点 上 沙子 并 吃 掉 黑子 ， 而 黑 方 无 法 阻止 。 但 如 
果 黑 方 自己 在 标记 的 交 义 把 上 落 子 ， 会 怎么 样 ? 整个 黑 方 棋 链 都 会 由 于 
气 尽 而 被 提 走 。 大 多 数 围 棋 规则 集 都 禁止 这 样 的 动作 ， 尺 管 存在 一 些 例 
外 情况 。 例 如 ， 值 得 一 提 的 是 ， 四 年 一 度 的 应 氏 杯 世界 职业 围棋 锦标 赛 
(Ing Cup) 就 允许 这 种 目 吃 的 落 子 规则 ， 而 它 是 国际 围棋 比赛 中 奖项 








最 大 的 比赛 之 一 。 





我 们 应 当 在 代码 中 执行 禁止 目 吃 的 规则 。 这 样 做 ， 不 但 与 现行 的 规 
则 集 保 持 一 致 ， 而 且 能 减少 机 器 人 再 要 考虑 的 动作 数目 。 要 构造 出 一 个 
选择 上 自 吃 是 最 佳 的 解决 方案 的 场景 也 不 是 不 可 能 ， 但 在 正式 的 比赛 中 这 
种 情况 基本 上 闻所未闻 。 





如 果 稍 微 改 一 下 图 3-3 中 周围 的 棋子 ， 则 会 出 现 另 一 种 完全 不 同 的 
情况 ， 如 图 3-4 所 示 。 



































图 3-4 在 这 种 情况 下 ， 标 记 的 交叉 点 对 黑子 来 说 是 吃 子 ， 而 不 是 自 吃 。 因 为 黑 方 落 子 能 够 吃 掉 
2 颗 白 子 ， 从 而 让 黑 方 立即 重 获 2 口 气 









































注意 ， 在 图 3-4 中 ， 在 检查 新 落 的 棋子 是 否 气 尽 之 前 ， 一 般 应 当先 
判断 是 否 能 吃 挥 对 方 棋子 。 在 所 有 规则 中 ， 这 一 a 子 而 
人 因为 黑子 落下 后 将 吃 掉 2 颗 折子 ， 并 重新 获得 2 口气 





注意 ，Board 类 实际 上 人 允许 自 吃 动作 。 但 在 GameState 类 中 ， 我 们 
可 以 在 棋盘 对 象 的 一 个 副本 上 执行 落 子 动作 ， 然 后 检查 副本 上 的 气 数 并 
检查 这 个 规则 ， 如 代码 清单 3-12 所 示 。 


代码 清单 3-12 ”继续 对 GameState 的 定义 ， 执 行 禁止 自 吃 的 规则 





def is move self capture(self, player, move): 
if not move.is play: 
return False 


next_ board = copy.deepcopy(self.board) 

next board.place_ stone(player, move.point) 
new_string = next board.get go_string(move.point) 
return new_ string.num liberties == 





3.2.2” 动 争 





完成 检查 自 吃 的 功能 后 ， 就 可 以 继续 实现 动 争 规则 了 。 我 们 在 第 2 
章 中 对 动 争 和 它 在 围棋 比赛 中 的 重要 性 进行 了 简要 的 介绍 。 简 而 言 之 ， 
如 果 一 次 落 子 动作 导致 棋盘 完全 返回 之 前 出 现 过 的 状态 ， 就 会 触发 动 争 
规则 。 但 这 并 不 意味 着 棋 手 就 不 能 立即 回击 了 。 下 面 几 幅 图 展示 了 一 个 
特例 。 在 图 3-5 中 ， 白 方刚 刚 在 棋盘 底部 落下 1 颗 孤 子 。 黑 方 的 2 颗 棋子 
现在 只 剩 下 1 口气 了 ， 但 白 子 也 同样 如 此 。 



































图 3-5 ”在 这 个 棋局 中 ， 白 方 想 要 吃 掉 2 颗 黑子 ， 但 是 这 颗 白 子 也 只 剩 下 1 口气 














黑 方 此 时 可 以 立即 虑 掉 白 子 并 挽救 自己 的 2 里 棋子 。 如 图 3-6 所 示 。 











图 3-6 ” 接 下 来 ， 黑 方 试 图 通过 吃 掉 孤 立 的 白 子 来 挽救 己方 的 2 颗 黑 子 








但 是 白 方 仍然 可 以 立即 在 图 3-5 中 沙 过 子 的 同一 点 再 次 落 子 ， 如 图 
3-7 上 所 示 。 
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图 3-7 ”在 这 个 棋局 中 ， 白 方 可 以 迅速 反击 〈 提 走 3 颗 黑子 ) ， 而 不 违反 动 争 规则 











我 们 可 以 看 到 ， 日 方 可 以 立即 重新 吃 掉 3 颗 黑子 ， 而 这 个 动作 并 不 
违反 动 争 规则 ， 因 为 图 3-5 与 图 3-7 的 整体 棋局 状态 并 不 完全 一 样 。 这 种 
沙子 动作 被 称 为 反 提 (snapback) 。 简 单 来 说 ， 动 争 规则 一 般 归 纳 
为 “不 能 立即 重新 吃 挥 对 方 棋子 *"。 但 由 于 前 面 这 种 特殊 情况 的 存在 ， 因 
此 我 们 在 实现 动 争 规则 时 要 格外 小 心 。 

















动 争 规则 可 以 通过 多 种 方式 来 实现 ， 但 除去 极 少数 例外 情况 ， 这 些 
方法 基本 上 都 是 等 效 的 。 我 们 在 代码 中 编写 如 下 规则 :， 棋 手 的 一 次 落 子 
动作 不 能 让 棋局 恢复 到 上 一 回合 的 游戏 状态 ， 这 里 ， 游 戏 状态 包括 棋盘 
上 所 有 棋子 的 位 置 ， 以 及 下 一 回合 的 执 子 方 。 这 种 组 合 称 为 局 势 大 动 规 


则 (Csituational superko rule) (1, 


由 于 每 个 GameState 实 例 都 存储 了 指 同 前 一 状态 的 指针 ， 我 们 可 以 
从 当前 状态 一 直 往 回 壳 历 所 有 的 历史 状态 ， 并 对 比 是 否 有 动 争 情况 发 
生 。 将 代码 清单 3-13 中 的 方法 添加 到 GameState 的 代码 里 来 实现 这 个 

















代码 清单 3-13 ”判断 当前 游戏 状态 是 否 违反 了 动 争 规则 





@property 
def situation(self): 
return (self.next player, self.board) 
def does move violate ko(self, player, move): 
if not move.is play: 
return False 
next_ board = copy.deepcopy(self.board) 
next_ board.place_ stone(player, move.point) 
next_ situation = (player.other, next_board) 
past_state = self.previous_ state 
while past state is not None: 
if past state.situation == next situation: 
return True 
past_ state = past state.previous state 
return False 





这 个 实现 是 正确 的 ， 并 且 人 逻辑 很 简单 ， 但 它 的 速度 相对 较 慢 。 每 一 
次 落 子 ， 都 必须 创建 一 个 棋局 游戏 状态 的 深层 副本 ， 并 将 它 与 之 前 所 有 
的 历史 状态 进行 对 比 。 而 且 ， 历 史 状 态 的 数量 还 会 随 看 时 间 的 推移 而 增 
加 。 我 们 将 在 3.5 节 中 讨论 一 种 可 以 加 速 这 个 步骤 的 有 趣 技术 。 





最 后 ， 可 以 使 用 3.2 市 中 关于 动 争 和 上 自 吃 规则 的 知识 ， 来 判断 一 个 
沙子 动作 是 否 合 法 ， I 这 样 也 就 完成 了 我 们 对 


GameState 类 的 完整 定 








代码 清单 3-14 在 给 定 游戏 状 态 下 ， 判 断 这 个 动作 是 否 合法 








def is valid move(self, move): 
if self.is over(): 
return False 
if move.is pass or move.is resign: 


return True 
return ( 
self.board.get(move.point) is None and 
not self.is move self capture(self.next player, move) and 
not self.does move violate ko(self.next player, move)) 





3.3 ” 终 盘 


计算 机 围棋 有 一 个 关键 概念 : 日 我 对 列 〈self-play) 。 在 自我 对 办 
中 ， 通 第 从 一 个 较 弱 的 围棋 机 器 人 开始 ， 让 它 与 自己 进行 对 奏 ， 并 利用 
比赛 的 结果 来 构建 一 个 更 强 的 机 器 人 。 在 第 4 章 中 ， 我 们 将 利用 自我 对 
弈 来 评估 棋盘 状态 。 在 第 9 章 至 第 12 章 中 ， 我 们 将 利用 自我 对 弈 来 评估 
单个 落 子 动作 ， 以 及 评估 选择 落 子 动作 的 算法 。 





要 利用 好 这 个 技术 ， 首 先 得 保证 自我 对 穿 的 棋局 能 够 正常 结束 。 在 
人 对 人 的 棋局 中 ， 如 有 果 双 方 都 无 法 通过 下 一 步 动 作 获 得 更 多 的 优势 ， 一 
局 比赛 就 结束 了 。 但 即使 对 人 类 来 说 这 也 是 个 很 复杂 的 概念 。 初 学 者 往 
往 在 终 盘 阶段 还 无 所 适 从 地 在 对 方 地 盘 里 落 于 ， 或 者 眼睁睁 地 看 着 对 方 
侵入 目 己 认为 已 经 稳固 的 地 盘 。 而 对 计算 机 来 说 这 就 更 加 困难 了 。 如 果 
机 器 人 的 逻辑 是 只 要 还 有 合法 的 动作 整 一直 继续 下 棋 的 话 ， 那 么 最 终 它 
只 会 把 自己 的 气 都 填 满 ， 从 而 丢掉 所 有 棋子 。 











我 们 可 以 想 出 几 个 启发 式 规则 来 帮助 机 器 人 更 合理 地 结束 棋局 。 例 
如 : 





。 不 要 在 完全 被 同色 棋子 所 包围 的 区 域 落 子 ; 
。 不 要 选择 落 子 后 会 导致 只 剩 一 口气 的 动作 ; 
。 如 宁 对 方 棋子 只 剩 一 口气 ， 总 是 吃 掉 它 。 











不 幸 的 是 ， 这 几 条 规则 全 都 过 于 严格 了 。 如 宁 机 器 人 严格 遵循 这 
几 条 规则 ， 那 么 强大 的 对 手 就 可 以 利用 这 些 弱 点 来 吃 掉 本 来 可 以 救 活 的 
大 龙 ， 或 者 抒 救 快要 因 气 义 和 被 提 走 的 棋 链 ， 或 者 得 到 更 好 的 局 势 。 总 的 
来 次 ， 我 们 制定 的 规则 应 尽 可 能 地 减少 对 机 器 人 选择 空间 的 限制 ， 以 便 
于 未 来 能 够 用 更 复杂 的 算法 学 习 更 高 级 的 策略 。 





要 解决 这 个 问题 ， 可 以 参考 一 下 围棋 的 友 展 历史 。 在 古代 ， 规 则 很 
简单 : 棋盘 上 棋子 多 的 一 方 就 是 获胜 方 。 双 方 都 会 尽量 填 满 所 有 可 以 填 
满 的 空 点 ， 只 留 下 眼 。 但 这 样 会 让 棋局 终 登 阶段 拖延 很 长 时 间 ， 因 此 人 
们 慢 慢 想 出 了 加 速 的 办 法 : 如 果 黑 方 明显 控制 了 棋盘 的 一 块 区 域 ( 即 奉 
日 方 在 这 个 区 域 落 子 ， 最 终 肯 定 会 被 吃 挥 〉 ， 那 么 就 不 再 需要 黑子 填 洱 
该 区 域 ， 而 只 要 双方 都 同意 将 该 区 域 视 为 黑 方 地 盘 即 可 。 这 就 是 地 盘 概 
念 的 来 源 。 随 着 时 代 的 发 展 和 规则 的 演变 ， 地 盘 最 终 变 成 了 明确 的 终 盘 
统计 指标 。 

















这 种 评分 规则 避免 了 判断 哪里 是 谁 的 地 盘 的 问题 ， 但 是 还 得 防止 机 
器 人 目 吃 ， 如 图 3-8 所 示 。 




















图 3-8 ” 白 方 在 棋盘 边 角 处 有 两 个 眼 A 和 B。 白 方 不 该 在 A 和 B 任 一 点 再 沙子 ， 否 则 会 导致 所 有 白 
子 都 被 黑 方 吃 掉 。 我 们 需要 禁止 机 器 人 填补 自己 的 眼 


























我 们 需要 增加 一 条 规则 ， 茶 止 机 器 人 目 己 填补 自己 的 眼 ， 而 且 要 用 
最 严格 的 定义 。 这 里 眼 的 定义 是 一 个 空 点 ， 它 所 有 的 相 邻 交叉 点 以 及 4 
个 对 角 相 邻 点 中 有 3 个 以 上 都 是 己方 的 棋子 。 





VY 
注 轧 


经 验 丰 富 的 围棋 棋 手 可 能 会 发 现 ， 如 果 这 样 定 义 眼 的 话 ， 在 某 些 情 
况 下 可 能 会 错过 有 效 的 眼 。 不 过 为 了 保持 实现 逻辑 的 人 简单， 我 们 暂时 接 


受 这 个 错误 。 


我 们 还 需要 为 棋盘 边缘 的 眼 做 特殊 的 判定 : 在 边线 上 ， 所 有 对 角 相 
邻 的 点 必须 都 是 己方 的 棋子 。 


我 们 创建 一 个 名 为 agent 的 新 子 模块 〈 先 新 建 一 个 叫 agent 的 文件 
夹 ， 再 在 其 中 新 建 一 个 空 的 _init_ .py 文件 ) ， 并 将 代码 清单 3-15 所 示 
的 ijs_point_an_eye 消 数 放 入 这 个 模块 下 的 helpers.py 文 件 中 。 




















代码 清单 3-15 ”棋盘 上 某 个 点 是 否 为 眼 








from dlgo.gotypes import Point 


def is point an eye(board, point, color): 
if board.get(point) is not None: <--- ”上 腿 必须 是 一 个 空 点 
return False 











for neighbor in point.neighbors(): <--- 所 有 相 邻 的 点 都 必须 是 己方 的 棋 
子 
if board.is on grid(neighbor): 
neighbor color = board.get(neighbor) 
if neighbor_ color != color: 
return False 








friendly_corners = 6 <--- 如果 这 个 空 点 位 于 棋盘 内 部 ， 己 方 棋子 至 少 得 控制 
4 个 对 角 相 邻 点 中 的 3 个 ， 而 如 果 衬 点 在 边缘 ， 则 必须 控制 所 有 的 对 角 相 邻 点 

off board corners = 6 

corners = [ 











Point(point.row - 1, point.col - 1)， 
Point(point.row - 1, point.col + 1)， 
Point(point.row + 1, point.col - 1)， 
Point(point.row + 1, point.col + 1)， 


for corner in corners: 
if board.is on grid(corner): 
corner_color = board.get(corner) 
if corner color == color: 
friendly_corners += 1 
else: 
off board corners += 1 
if off board corners > 6: 


return off board corners + friendly corners == <---” 空 点 在 边 
缘 或 角落 
return friendly_corners >= 3 <“--- 空 点 在 棋盘 内 部 





本 章 并 不 需要 特别 考虑 如 何 判 定 棋局 胜 负 ， 但 是 在 终 盘 阶段 ， 计 算 
点 数 痛 定 是 一 个 重要 话题 。 不 同 的 锅 标 赛 和 围棋 联盟 所 采纳 的 规则 集合 
略 有 不 同 。 在 本 书 中 ， 我 们 让 机 器 人 遵循 AGA 规 则 的 数 子 法 。 这 个 方法 





也 称 为 中 国 计 数 法 。 虽 然 日 本 规则 在 休闲 游戏 中 更 受 欢迎 ， 但 AGA 规 
则 更 容易 在 计算 机 里 实现 ， 而 且 这 两 种 规则 的 差异 很 少 会 影响 游戏 的 结 
果 。 





3.4 创建 自己 的 第 一 个 机 器 人 : 理论 上 最 弱 的 围 
棋 AI 


完成 围棋 棋盘 与 游戏 状态 编码 的 实现 之 后 ， 我 们 就 可 以 着 手 创 建 自 
己 的 第 一 个 围棋 机 器 人 了 。 这 个 机 器 人 非常 弱 ， 但 它 是 将 来 所 有 改进 的 
坚实 基础 。 我 们 需要 先 定义 所 有 机 器 人 都 遵循 的 接口 ， 如 代码 清单 3-16 
所 示 。 把 这 些 定义 代码 放 在 base.py 文 件 中 。 








代码 清单 3-16 围棋 机 器 人 的 统一 接口 





class Agent: 
def init (self): 
pass 


def select move(self, game_state): 
raise NotImplementedError() 





就 是 这 么 简单 ， 这 个 接口 只 有 一 个 方法 。 所 有 机 硕 人 都 要 根据 当前 
游戏 状态 选择 一 个 动作 。 当 然 ， 在 这 个 方法 内 部 可 能 会 调用 其 他 复杂 的 
任务 ， 例 如 评估 当前 棋盘 状态 等 。 但 是 在 进行 对 蛮 时 ， 这 是 机 圳 人 唯一 
需要 的 方法 。 











我 们 的 第 一 个 实现 比较 简单 : 它 将 随机 选择 任何 合法 的 动作 ， 只 要 
别 填 上 自己 的 眼 即 可 ; 如 果 找 不 到 合法 的 动作 ， 它 就 会 选择 跳 过 回合 。 
将 这 个 随机 机 器 人 的 代码 放 在 agents 目 录 下 的 naive.py 文 件 中 。 回 忆 一 下 
第 2 章 中 的 介绍 ， 在 围棋 中 初学 者 的 级 别 通常 是 25 级 到 1 级 之 间 。 投 照 这 
个 评级 标准 ， 随 机 机 器 人 应 该 算 作 25 级 ， 即 一 个 完全 的 新 手 ， 如 代码 清 
单 3-17 所 示 。 


代码 清单 3-17 ”一 个 随机 的 围棋 机 器 人 ， 棋 力 评级 大 概 是 25 级 











import random 
from dlgo.agent.base import Agent 
from dlgo.agent.helpers import is_point_an_eye 


from dlgo.goboard slow import Move 
from dlgo.gotypes import Point 


class RandomBot(Agent ) : 
def select move(self, game_state): 
"""Choose a random valid move that preserves our Own eyes.""" 
candidates = [] 
for r in range(1, game_state.board.num rows + 1): 
for c in range(1, game_state.board.num cols + 1): 
candidate = Point(row=r, col=c) 
if game_state.is valid move(Move.play(candidate)) and \ 
not is point an eye(game_ state.board, 
candidate, 
game_state.next player): 
candidates.append(candidate) 
if not candidates: 


return Move.pass_ turn() 
return Move.play(random.choice(candidates)) 








此 时 ， 模 块 结构 应 如 下 所 示 〔 确 保 在 文件 夹 中 放置 一 个 空 的 
_init .py 文件 来 初始 化 子 模块 ) : 
dlgo 


agent 


__init .py 
helpers.py 
base.py 
naive.py 








最 后 ， 我 们 可 以 建立 一 个 启动 程序 ， 让 两 个 随机 机 器 人 进行 完整 的 
对 列 。 这 里 首先 要 定义 儿 个 方便 的 辅助 函数 ， 例 如 在 控制 全 上 显示 整个 
棋盘 ， 或 显示 单个 动作 。 








围棋 棋盘 的 坐标 可 以 用 多 种 方式 来 指定 ， 但 在 欧洲 最 常见 的 方法 是 
用 从 A 开 始 的 字母 表示 列 ， 用 从 1 开始 的 数字 表示 行 。 在 这 个 坐标 系 
中 ， 标 准 19x19 棋 盘 的 左下 角 为 AL， 右 上 角 为 T19。 注 意 ， 依 照 惯例 ， 


我 们 忽略 字母 I[， 以 免 与 数字 1 混淆 。 


我 们 可 以 先 定 义 一 个 字符 串 变 量 COLS = 
'ABCDEFGHJKLMNOPQRST'， 其 中 每 个 字母 代表 围棋 棋盘 的 一 列 。 要 在 
命令 行 上 显示 棋盘 ， 可 以 使 用 〈. ) 来 显示 一 个 空 点 ， 用 x 来 代表 黑 棋 ， 
并 用 o 代 表白 棋 。 把 代码 清单 3-18 中 的 代码 放 进 我 们 在 dlgo 包 新 建 的 
utils.py 文 件 。 创 建 一 个 print_move 函 数 ， 用 于 在 命令 行 中 显示 下 一 步 
动作 。 再 创建 一 个 print_board 函 数 ， 用 于 显示 当前 棋盘 以 及 所 有 的 横 
本 
































代码 清单 3-18 ”机 器 人 相互 对 弈 的 实用 工具 函数 

















from dlgo import gotypes 


COLS = 'ABCDEFGHJKLMNOPQRST' 
STONE_TO CHAR = { 
None: 
gotypes.Player.black: ' x '， 
gotypes.Player.white: ' o ',， 


def print move(player, move): 
if move.is pass: 


move_str = 'passes' 
elif move.is resign: 
move_str = 'resigns' 
else: 
move_str = '%s%d' % (COLS[move.point.col - 1], move.point.row) 


print('%s %s' % (player, move_str)) 


def print board(board): 
for row in range(board.num rows, 0, -1): 

bump = " " if row <= 9 else "" 

line = [] 

for col in range(1, board.num cols + 1): 
stone = board.get(gotypes.Point(row=row, col=col)) 
line.append(STONE TO_ CHAR[stone]) 

print('%s%d %s' % (bump, row, ''.join(line))) 


print(' "+" '".join(COLS[:board.num cols])) 





我 们 可 以 建立 一 个 脚本 ， 在 9 x 9 棋盘 上 启动 两 个 随机 机 器 人 的 对 
殊 ， 直 到 它们 决定 终止 棋局 ， 如 代码 清单 3-19 所 示 。 把 这 有 段 代码 放 在 
dlgo 模 块 外 一 个 名 为 bot_v_bot.py 的 文件 中 。 




















代码 清单 3-19 让 机 器 人 进行 自我 对 弈 的 启动 脚本 

















from dlgo import agent 

from dlgo import goboard 

from dlgo import gotypes 

from dlgo.utils import print board, print move 
import time 


def main(): 
board size = 9 
game = goboard.GameState.new game(board size) 
bots = { 
gotypes.Player.black: agent.naive.RandomBot(), 
gotypes.Player.white: agent.naive.RandomBot(), 


while not game.is over(): 
time.sleep(6.3) <--- 将 睡眠 定时 器 设置 为 6.3s， 以 免 机 器 人 动作 的 输出 
速度 太 快 而 无 法 观察 






































print(chr(27) + "[2I"] <--- 在 每 个 沙子 动作 之 前 需要 清除 
， 棋 盘 就 会 始终 显示 在 命令 行 上 的 相同 位 置 

print_board(game.board ) 

bot move = bots[game.next_player].select_move(game) 

print move(game.next player, bot move) 

game = game.apply_ move(bot move) 














if name == ' main _ 
main() 








要 在 命令 行 里 启动 机 器 人 对 决 ， 可 以 运行 下 面 的 命令 : 


python bot v_bot.py 


屏 磊 上 应 当 会 显示 很 多 动作 。 最 终 棋 局 会 在 双方 都 跳 过 回合 时 结 


束 。 回 想 一 下 ， 黑 子 编码 为 X， 白 子 编码 为 o0， 空 点 编码 为 .。 以 下 是 生 
成 的 一 局 中 日 方 最 后 一 次 沙子 的 示例 : 








9 0.0000000 
8 OOOOXXOXX 
7 0000X .XXX 
6 0.00XXXXX 
5 OOOOXXXXX 


4 O000XXXXX 

3 0.000X .XX 

2 0000XXXXX 

1 0.000XXX . 
ABCDEFGHJ 

Player.white passes 








这 个 机 器 人 不 但 很 绊 ， 而 且 与 之 对 弈 会 让 人 诅 丧 : 即使 局 面 完 全 无 
望 ， 它 也 会 项 固 地 继续 落 子 ， 和 直到 整个 棋盘 被 填 满 。 而 且 ， 无 论 它 进行 
多 少 次 上 自我 对 弈 ， 都 学 习 不 到 任何 东西 。 它 将 永远 保持 现在 的 水 平 。 


在 后 面 的 章节 里 ， 我 们 将 慢 慢 改进 这 两 个 弱点 ， 并 构建 一 个 更 有 
趣 、 更 强大 的 围棋 引擎 。 


3.5 “使 用 Zobrist 哈 希 加 速 棋局 








本 章 最 后 一 市 将 介绍 如 何 与 随机 机 器 人 开展 对 一 。 但 在 这 之 前 ， 我 
们 先 快速 浏览 一 种 重要 技术 ， 它 可 以 解决 当前 实现 中 的 速度 问题 。 如 果 
读者 对 速度 调 优 不 感 兴趣 ， 可 以 直接 跳 到 3.6 节 。 


回忆 一 下 3.2 三 中 ， 为 了 检测 超级 动 搜 的 情形 ， 我 们 需要 检查 棋局 
的 全 部 历史 记录 ， 才 能 判断 当前 的 棋局 是 否 已 经 出 现 过 。 这 样 做 所 需 的 
计算 量 是 很 大 的 。 为 了 避免 这 个 问题 ， 我 们 可 以 稍微 修改 一 下 程序 的 设 





置 : 可 以 不 用 存储 整个 棋局 的 历史 ， 而 只 存储 占用 空间 更 小 的 哈 希 值 。 


哈 希 技术 在 计算 机 科学 中 使 用 非常 广泛 。 其 中 ，Zobrist 哈 希 〈 以 
计算 机 科学 家 Albert Zobrist 的 名 字 命 名 ， 他 在 20 世 纪 70 年 代 早期 构建 了 
最 时 的 围棋 机 器 人 之 一 ) 在 其 他 棋 类 游戏 中 使 用 特别 广泛 ， 例 如 国际 象 
棋 。 在 Zobrist 哈 希拉 术 中 ， 我 们 需要 为 棋盘 上 每 一 个 可 能 发 生 的 动作 分 
配 一 个 哈 希 值 。 为 获得 最 好 的 结果 ， 每 个 哈 希 值 都 应 当 随 机 选择 。 在 于 
棋 中 ， 落 子 动作 有 黑白 两 种 可 能 ， 因 此 在 19x19 规 格 的 棋盘 上 ， 完 整 的 
Zobrist 哈 希 应 当 由 2x19x19 = 722 个 哈 希 值 组 成 。 我 们 可 以 只 用 这 722 个 
哈 希 值 来 代表 单个 动作 ， 给 最 复杂 的 棋盘 布局 编码 。 图 3-9 展 示 了 这 个 
技术 的 工作 流程 。 








@@ 要 把 C3 处 的 落 子 应 用 到 棋盘 上 ， 
可 以 用 XOR 操 作 将 这 个 动作 的 


哈 希 值 《1001001) 应 用 于 空白 
@@ 棋局 从 空白 的 棋盘 开始 ， 其 哈 希 值 为 0。 其 盘 ; 


我 们 使 用 5x5 棋 盘 进行 说 明 ， 但 在 代码 
实现 中 ， 使 用 的 则 是 完整 的 19x19 模 盘 。 oe 


A BCDE 


1 


一 ID wm 上 wm 
一 ID wm 上 wm 
一 ID uu 


A BCDE 


一 ID wm 上 wm 
一 Im 上 wm 





全 下 一 步 动作 是 在 D3 落 子 ， 我 们 将 它 的 和 @@ 如 果 想 要 撤回 上 一 次 D3 的 落 子 动作 ， 
哈 希 值 0101000 应 用 到 棋盘 上 : 可 以 再 次 应 用 它 的 哈 希 值 。 提 子 操作 
1001001 XOR 0101000 也 可 以 这 么 做 : 
= 1100001 1100001 XOR 0101000 

= 1001001 








图 3-9 ”使 用 Zobrist 哈 希 对 沙子 动作 进行 编码 ， 并 高 效 地 存储 游戏 状态 

















图 3-9 所 示 过 程 的 有 趣 之 处 在 于 ， 用 一 个 哈 希 值 就 能 够 对 整个 棋盘 
的 状态 进行 编码 。 我 们 从 空白 棋盘 开始 ， 为 简单 起 见 ， 可 以 把 它 的 哈 希 
值 选择 为 0。 每 个 落 子 动作 都 共有 特定 的 哈 希 值 ， 可 以 用 棋盘 的 哈 希 值 
与 动作 对 应 的 哈 希 值 进行 XOR 操 作 来 计算 新 的 棋盘 哈 而 值 。 我 们 将 这 个 
运算 称 为 应 用 该 哈 希 值 。 按 照 这 个 人 逻辑， 每 过 到 一 个 新 的 落 子 动作 ， 整 
可 以 将 它 的 哈 希 值 应 用 到 棋盘 上 。 这 样 ， 我 们 只 用 单个 哈 希 值 就 可 以 跟 
踩 当 前 的 棋盘 状态 了 。 





注意 ， 对 于 任何 动作 ， 都 可 以 再 次 应 用 它 的 哈 希 值 来 撤回 它 〈 这 也 
是 XOR 操 作 特 有 的 方便 之 处 ) 。 我 们 将 这 个 操作 称 为 逆 应 用 该 哈 希 值 。 
这 一 点 很 重要 ， 因 为 有 了 这 个 特性 ， 就 可 以 在 提 子 时 轻松 地 从 棋盘 上 移 
除 棋子 。 例 如 ， 如 果 要 吃 掉 棋 盘 上 C3 处 的 黑子 ， 可 以 应 用 C3 的 哈 希 
值 ， 将 它 从 当前 棋盘 状态 对 应 的 哈 希 值 中 移 除 。 当 然 ， 这 么 做 的 话 ， 还 
必须 把 吃 掉 C3 处 黑子 的 白 子 的 哈 希 值 也 应 用 到 棋盘 上 。 如 果 白 方 一 次 落 
子 吃 掉 多 颗 黑子 ， 则 需要 将 它们 的 哈 希 值 全 部 都 逆 应 用 到 棋盘 上 。 








如 果 哈 希 值 选择 的 足够 大 、 足 够 通用 ， 以 至 于 不 会 导致 哈 希 神 突 
( 即 两 个 不 同 的 棋局 状态 永远 不 会 产生 相同 的 哈 希 值 )， 那 么 就 可 以 用 
这 套 算 法 来 编码 任何 棋盘 状态 。 但 在 实际 运行 中 ， 我 们 往往 不 检查 哈 希 
冲突 ， 而 是 直接 假设 哈 希 冲突 不 会 产生 。 


要 在 围棋 棋盘 中 实现 Zobrist 哈 希 ， 需 要 先生 成 所 有 的 哈 希 值 。 我 们 
可 以 使 用 Python 的 random 随 机 库 为 3x19x19 个 可 能 的 交叉 点 状态 生成 64 
位 随机 整数 ， 如 代码 清单 3-20 所 示 。 注 意 ， 在 Python 中 ， 符 号 ^ 用 来 执 
行 XOR 操 作 。 对 于 空白 棋盘 选择 哈 希 值 8。 











代码 清单 3-20 ”生成 Zobrist 哈 希 值 











import random 


from dlgo.gotypes import Player, Point 
def to _ python(player_ state): 
if player_state is None: 
return ‘'None' 
if player_state == Player.black: 
return Player.black 
return Player.white 


MAX63 = @x7fffffffffffffff 


table = {} 
empty_board = 6 
for row in range(1, 20): 
for col in range(1, 20): 
for state in (Player.black, Player.white): 
code = random.randint(6@, MAX63) 
table[Point(row, col), state|] = code 


print('from .gotypes import Player, Point') 
print('') 

print(" all = ['HASH CODE', 'EMPTY BOARD']") 
print('') 

print('HASH CODE = {') 

for (pt, state), hash code in table.items(): 


print(' (%r, %s): %r,' % (pt, to python(state), hash_code)) 
print('}') 
print("'') 


print('EMPTY_BOARD = %d' % (empty_board, )) 





在 命令 行 中 运行 这 个 脚本 ， 会 显示 我 们 所 需 的 哈 希 值 ， 并 将 生成 的 
Python 代码 显示 在 命令 行 上 。 把 显示 的 代码 保存 到 dlgo 模 块 下 的 
zobrist.py 文 件 中 。 


现在 我 们 已 经 准备 好 了 上 所 需 的 哈 希 值 ， 接 着 可 以 蔡 换 以 前 的 游戏 状 
态 跟踪 机 制 ， 改 写成 存储 哈 希 值 的 方式 。 复 制 goboard_slow.py 文 件 ， 命 
名 为 goboard.py《〈 本 节 之 后 的 所 有 修改 都 放 在 这 个 新 文件 中 ) ， 或 者 从 
GitHub 代 码 库 中 找到 goboard.py 文 件 的 代码 也 是 可 以 的 。 第 一 步 ， 做 一 
个 小 修改 ， 把 Gostring 类 、stones 变 量 和 1liberties 变 量 都 设置 为 不 
可 变性 质 ， 即 让 它们 在 创建 之 后 融 不 能 再 被 修改 。 我 们 可 以 使 用 Python 
的 frozenset 蔡 代 之 前 的 set 来 实现 这 个 改变 。frozenset 没 有 添加 或 
删除 元 素 的 方法 ， 因 此 在 需要 更 新 的 时 候 就 不 能 修改 现 有 集合 ， 而 只 能 
创建 一 个 新 集合 了 ， 如 代码 清单 3-21 所 示 。 























代码 清单 3-21 包含 不 可 变 成 员 stones 和 1liberties 的 GoString 实 例 


class GoString: 
def _init (self, color, stones, liberties): 
self.color = color 
self.stones = frozenset(stones) 
self.liberties = frozenset(liberties) <e--- stones 和 1iberties 


现在 都 改 为 不 可 变 的 frozenset 实 例 


def without liberty(self, point): <--- 用 without_1L1iberty 方 法 蔡 代 之 
前 的 remove_liberty 方 法 


new_ liberties = self.liberties - set([point]) 
return GoString(self.color, self.stones, new liberties) 























def with liberty(self, point): <--- ”用 with_liberty 替 代 add_liberty 
new_ liberties = self.liberties | set([point]) 
return GoString(self.color, self.stones, new liberties) 





而 对 于 Gostring， 可 以 替换 它 的 两 个 更 新 操作 方法 ， 来 实现 不 可 
变性 质 。 而 诸如 merged_with 或 num_1Liberties 的 其 他 辅助 方法 ， 则 仍 
然 保留 ， 不 受 影响 。 


接 下 来 ， 我 们 将 更 新 围棋 棋盘 的 相关 代码 ， 如 代码 清单 3-22 所 示 。 
































代码 清单 3-22 ”实例 化 一 个 包含 _hash 成 员 的 围棋 棋盘 ， 其 值 为 空白 棋盘 的 哈 希 值 

















from dlgo import zobrist 


class Board: 
def _init (self, num rows, num cols): 


self.num rows = num_rows 
self.num cols num_cols 
self. grid = { 
self. hash = z 





brist.EMPTY_BOARD 





接着 ， 在 place_stone 方 法 中 ， 每 次 沙子 时 都 对 棋盘 应 用 棋子 的 哈 
希 值 ， 如 代码 清单 3-23 所 示 。 注 意 ， 与 本 节 其 他 的 代码 一 样 ， 代 码 修改 
要 在 goboard.py 文 件 中 进行 。 























代码 清单 3-23 ”沙子 时 需要 应 用 它 的 哈 希 值 








new_string = GoString(player, [point], liberties) 
行 之 前 ，place_stone 的 实现 保持 不 变 





for same color string in adjacent same _ color: <--- 将 己方 所 有 
的 相 邻 棋 链 合并 起 来 
new_string = new_string.merged_ with(same color string) 
for new_ string point in new_string.stones : 
self. grid[new string _ point] = new_string 








self. hash ^= zobrist.HASH CODE[point, player] <--- 接着， 对 棋 
j 这 个 交叉 点 与 棋 色 所 对 应 的 哈 希 值 























for other_color_string in adjacent opposite color: 
replacement = other color string.without liberty(point) 
if replacement.num liberties: <--- 然后 减少 所 有 相 邻 的 对 方 棋 








self. replace string(other color string.without liberty(point)) 
else: 
self. remove string(other color string) <--- 如 果 对 方 
连 气 尽 了， 就 提 走 它们 


























要 提 走 一 颗 棋 子 ， 只 需要 再 次 应 用 它 的 哈 希 值 即 可 ， 如 代码 清单 3- 
24 上 所 示 。 





代码 清单 3-24 ” 提 子 时 需要 逆 应 用 该 棋子 的 哈 希 值 














def replace string(self, new string): <--- 这 个 新 的 辅助 方法 可 以 更 
新 围棋 棋盘 网 格 








for point in new_string.stones : 
self. grid[point] = new_string 


def remove string(self, string): 
for point in string.stones : 
for neighbor in point.neighbors(): <--- ， 提 走 一 条 棋 链 会 为 其 他 
棋 链 解放 出 新 的 气 








neighbor_string = self. grid.get(neighbor) 
if neighbor_string is None: 

continue 
if neighbor string is not string: 


self. replace string(neighbor string.with liberty(poin 


t)) 
self. grid[point] = None 


self. hash ^= zobrist.HASH CODE[point, string.color] <e--- 
在 Zobrist 哈 希 中 ， 和 需要 通过 逆 应 用 这 步 动作 的 哈 希 值 来 实现 提 子 























最 后 ， 为 Board 类 添加 一 个 实用 工具 方法 ， 用 于 返回 棋盘 当前 的 
Zobrist 哈 希 值 ， 如 代码 清单 3-25 所 示 。 














代码 清单 3-25 ”返回 棋盘 当前 的 Zobrist 哈 希 值 


def zobrist hash(self): 
现在 我 们 已 经 用 Zobrist 哈 希 值 对 棋盘 进行 了 编码 ， 让 我 们 看 看 如 何 
用 它 来 改进 GameState。 




















之 前 ， 上 一 回合 的 游戏 状态 是 这 样 保存 
的 : self.previous_state = previous。 而 我 们 已 经 讨论 过 ， 由 于 
检查 动 争 时 ， 必 须 循 环 裔 历 所 有 过 去 的 状态 ， 这 么 做 消耗 太 大 了 。 而 现 
在 我 们 可 以 使 用 一 个 新 成 员 变 量 previous_states 来 存储 Zobrist 哈 希 
值 ， 如 代码 清单 3-26 所 示 。 














代码 清单 3-26 ”用 Zobrist 哈 希 值 初始 化 游戏 状态 

















class GameState: 
def _ init (self, board, next player, previous, move): 
self.board = board 


self.next player = next player 
self.previous state = previous 
if self.previous state is None: 
self.previous states = frozenset() 
else: 
self.previous states = frozenset( 


previous.previous states | 


{(previous.next player, previous.board.zobrist hash())}) 
self.last move = move 





如 果 棋 盘 是 空白 的 ， 则 历史 状态 self.previous_states 是 一 个 不 
可 变 的 空 frozenset; 否则 ， 需 要 给 状态 集合 增加 一 对 值 : 下 一 回合 沙 
子 方 的 棋 色 和 上 一 回合 的 游戏 状态 的 Zobrist 哈 希 值 。 





上 述 这 些 都 准备 好 之 后 ， 就 可 以 大 大 改进 does_move_violate_ko 
实现 了 ， 如 代码 清单 3-27 所 示 。 





代码 清单 3-27 ”使 用 Zobrist 哈 希 值 快速 检测 游戏 状态 是 否 有 动 争 


def does move violate ko(self, player, move): 
if not move.is play: 
return False 


next board = copy.deepcopy(self.board) 

next board.place_ stone(player, move.point) 

next_ situation = (player.other, next board.zobrist_ hash()) 
return next situation in self.previous states 





通过 next_situation in self.previous_states 来 检查 历史 棋 
局 状态 ， 比 显 式 地 循环 遍历 先前 的 所 有 棋局 状态 要 快 一 个 数量 级 。 


在 后 面 的 章节 中 ， 这 个 有 趣 的 哈 希 技巧 可 以 帮 我 们 大 大 提升 目 我 对 
他 实现 的 速度 ， 从 而 能 够 更 快 地 改进 棋 力 。 


更 进一步 提升 围棋 棋盘 实现 的 速度 


我 们 对 原先 的 goboard_slow.py 进 行 了 深入 的 优化 ， 并 展示 了 如 何 使 








用 Zobrist 哈 希 来 加 速 它 ， 最 终 得 到 了 goboard.py。 在 本 书 的 GitHub 代 码 
库 中 ， 还 可 以 看 到 男 一 个 名 为 goboard_fast.py 的 棋盘 实现 ， 它 进一步 提 
升 了 运行 速度 。 这 些 速度 上 的 提升 ， 虽然 牺牲 了 代码 的 可 读 性 ， 但 在 后 
文中 我 们 会 发 现 极其 有 价值 。 


如 果 读 者 对 如 何 优化 棋盘 速度 感 兴 趣 ， 可 以 查看 goboard_fast.py 的 
代码 ， 以 及 代码 中 的 注释 。 大 多 数 的 优化 技巧 都 在 于 避免 构建 和 复制 
Python 对 象 。 


3.6 ”人 机 对 奔 


现在 ， 我 们 已 经 构建 了 一 个 能 够 进行 目 我 对 硬 的 机 堪 人 ， 该 者 可 能 
会 想 要 试 试 利 用 第 2 章 所 学 的 围棋 知识 ， 杀 和 目 与 它 对 弈 。 这 一 点 是 可 以 
实现 的 。 而 且 有 了 机 器 人 之 间 对 弈 的 代码 之 后 ， 并 不 需要 进行 太 多 的 改 
动 就 能 实现 。 








需要 在 utils.py 文 件 中 再 添加 一 个 实用 工具 函数 ， 将 人 工 输入 转换 为 
围棋 棋盘 的 坐标 ， 如 代码 清单 3-28 所 示 。 





代码 清单 3-28 将 人 工 输入 转换 为 围棋 棋盘 的 坐标 


def point from coords(coords): 
col = COLS.index(coords[6]) + 1 


row = int(coords[1:]) 
return gotypes.Point(row=row, col=col) 





这 个 函数 将 诸如 c3 或 E7 之 类 的 人 工 输入 转换 为 围棋 棋盘 的 坐标 。 有 
了 这 个 函数 ， 我 们 就 可 以 创建 一 个 9x9 棋 盘 的 程序 了 ， 如 代码 清单 3-29 
所 示 。 这 上 段 代 码 就 放 在 human_v_bot.py 文 件 中 。 





代码 清单 3-29 ”建立 一 个 人 机 对 奔 的 脚本 

















from dlgo import agent 

from dlgo import goboard slow as goboard 

from dlgo import gotypes 

from dlgo.utils import print board, print move, point from coords 
from six.moves import input 


def main(): 
board size = 9 
game = goboard.GameState.new game(board size) 
bot = agent.RandomBot() 


while not game.is over(): 


print(chr(27) + "[2I"] 

print_ board(game.board) 

if game.next player == gotypes.Player.black: 
human move = input('-- ') 
point = point from coords(human move.strip()) 
move = goboard.Move.play(point) 

else: 
move = bot.select move(game) 

print move(game.next player, move) 

game = game.apply_move(move) 





在 这 个 脚本 里 ， 人 类 棋 手 执 黑 子 ， 随 机 机 器 人 执 白 子 。 可 以 使 用 下 
面 的 命令 局 动 这 个 脚本 : 


python human_v_bot.py 


系统 将 提示 输入 一 个 落 子 动作 ， 并 按 Enter 键 提交 。 例 如 ， 如 果 我 们 


第 一 步 棋 选择 落 在 G3， 那 么 机 器 人 的 啊 应 可 能 如 下 所 示 : 


Player .white D8 





ABCDEFGH]J 


如 果 读 者 有 兴趣 ， 可 以 继续 与 机 器 人 进行 完整 的 对 诀 。 但 是 ， 因 为 
这 个 机 器 人 的 动作 是 随机 的 ， 所 以 这 样 下 横 和 暂时 也 没什么 乐趣 。 


注意 ， 束 遵循 围棋 规则 而 言 ， 这 个 机 占 人 的 功能 已 经 完备 了 。 它 已 
经 掌握 了 对 于 围棋 所 需 知道 的 所 有 知识 。 这 一 点 很 重要 ， 因 为 从 现在 开 
始 我 们 就 可 以 完全 专注 于 改进 围棋 对 歼 的 算法 了 。 这 个 机 器 人 标志 着 一 
个 恨 好 的 开端 。 在 接 下 来 的 章节 中 ， 我 们 将 引入 更 多 有 趣 的 技术 来 创建 
更 强大 的 机 器 人 。 











37 水 结 


围棋 游戏 中 的 双方 最 好 用 枚 举 进 行 编码 。 

围棋 棋盘 上 的 一 个 交叉 点 的 特征 由 其 直接 相 邻 点 决定 。 

围棋 中 的 一 次 动作 可 以 是 落 子 、 跳 过 回合 或 认输 。 

棋 链 指 的 是 同色 相连 的 棋子 。 在 落 子 之 后 ， 如 果 想 要 高 效 地 检查 是 
售 需 要 担子 ， 棋 链 概 念 就 非常 重要 。 

围棋 棋盘 类 Board 包 含 了 沙子 与 吃 子 的 所 有 巡 辑 。 








棋局 游戏 状态 类 GameState 负 责 跟踪 下 一 回合 的 执 子 方 、 当 前 的 棋 
盘 布局 以 及 之 前 所 有 的 历史 棋局 状态 。 

本 书 判 断 动 争 采用 的 是 局 势 大 动 规则 。 

Zobrist 哈 希 是 一 种 高 效 的 编码 技术 ， 可 以 对 棋局 历史 状态 进行 编 
码 ， 并 大 大 加 快 检查 动 争 的 速度 。 

定义 围棋 机 器 人 只 需要 一 个 方法 select_move。 

我 们 的 随机 机 器 人 可 以 进行 自我 对 弈 、 与 其 他 机 器 人 对 弈 ， 也 可 以 
进行 人 机 对 奔 。 











[1] 与 之 相 比 ， 不 考虑 下 一 回合 执 子 方 而 只 考虑 棋子 位 置 的 动 争 规则 ， 
被 称 为 位 置 大 动 规则 (positional superko rule) 。 一 一 译 者 注 


此 二 部 分 机 融 学 习 和 游戏 AI 


在 本 书 第 二 部 分 中 ， 我 们 将 学 习 古 典 和 现代 游戏 AI 的 各 种 算法 。 第 
二 部 分 将 从 各 种 树 搜 索 算 法 开始 讲述 ， 这 些 算法 是 游戏 AI 以 及 各 种 优化 
问题 的 基本 工具 ， 接 着 会 介绍 深度 学 习 和 神经 网 络 ， 从 数学 基础 开始 ， 
一 直 讲 到 许多 实践 性 的 设计 问题 ， 最 后 会 介绍 强化 学 习 ， 它 是 一 个 能 让 
游戏 AI 通过 实践 练习 逐步 提高 的 算法 框架 。 








当然 ， 这 些 技术 的 应 用 都 不 只 局 限于 游戏 中 。 营 握 了 这 些 技术 之 
后 ， 读 者 就 应 当 能 发 现 它们 在 各 个 领域 中 的 应 用 机 会 了 。 


第 4 草 ”使 用 树 搜索 下 棋 


本 章 主 要 内 容 
。 使 用 极 小 化 极 大 算法 找到 最 佳 动作 。 
。 对 极 小 化 极 大 树 搜 索 进行 闹 校 ， 以 加 快速 度 。 
。 将 蒙特 卡 洛 树 搜索 应 用 于 游戏 。 


假设 我 们 接 到 两 个 任务 。 第 一 个 任务 是 编写 一 个 计算 机 程序 下 国际 
象棋 ; 第 二 个 任务 是 编写 一 个 程序 在 仓库 中 高 效 地 提取 货物 。 这 两 个 程 
序 有 什么 共同 之 处 呢 ? 乍 看 起 来 似乎 并 没有 什么 共同 之 处 。 但 是 ， 如 宋 
我 们 退 一 步 ， 用 更 抽象 的 概念 去 思考 ， 就 能 够 看 到 一 些 相似 之 处 。 





。 任务 中 需要 做 出 一 系列 决策 。 在 国际 象棋 中 ， 需 要 决定 下 一 步 移 
动 哪 一 颗 棋 子 ， 而 在 仓库 中 ， 需 要 决定 接 下 来 提取 哪 一 件 贷 
早期 的 决策 可 能 会 影响 未 来 的 决策 。 在 国际 象棋 中 ， 开 盘 阶 段 移 
动 了 一 个 兵 ， 可 能 会 导致 星 后 在 很 多 回合 后 暴露 于 对 手 的 威胁 之 
下 ; 而 在 仓库 中 ， 如 果 先 去 17 号 货架 寻找 一 个 物件 ， 那 么 可 能 导致 
需要 绕 很 多 路 去 99 号 货架 继续 寻找 货物 。 

在 动作 序列 结束 时 ， 可 以 评估 目标 完成 的 程度 。 在 国际 象棋 中 ， 
棋局 结束 时 就 知道 谁 赢 了 ;而 在 仓库 中 ， 可 以 把 所 有 寻找 货物 的 时 
间 奈 加 起 来 作为 一 个 度量 标准 。 

决策 序列 的 可 能 组 合 数量 可 能 非常 庞大 。 国 际 象棋 比赛 有 大 约 
10199 种 潜在 棋局 ， 而 在 仓库 中 ， 如 果 有 20 个 货物 需要 提取 ， 就 有 20 














亿 种 可 能 的 路 径 供 选 择 。 





两 者 的 相似 之 处 也 就 这 么 多 了 ， 更 多 的 是 不 同 之 处 。 例 如 ， 在 国际 
象棋 中 ， 我 们 有 一 个 对 手 ， 双 方 轮流 行动 ， 对 手 会 试图 阻 但 我 们 的 行 
动 ， 而 在 任何 有 人 愿意 上 班 的 仓库 中 都 不 会 发 生 这 种 情况 。 


在 计算 机 科学 中 ， 树 搜索 算法 (tree-search algorithm ) 是 一 类 搜索 
人 策略， 它们 循环 遍历 许多 可 能 的 决策 序列 ， 并 找到 那些 能 产生 最 佳 结果 
的 决策 。 在 本 章 中， 我 们 将 介绍 适用 于 游戏 的 树 搜 索 算法 。 这 其 中 有 不 
少 原则 也 可 以 扩展 应 用 到 其 他 优化 问题 中 。 我 们 先 介绍 极 小 化 极 大 搜索 
算法 (minimax search algorithm) 。 每 一 回合 ， 它 会 在 对 弈 双方 间 切 换 
视角 。 极 小 化 极 大 算法 可 以 找到 完美 的 游戏 路 径 ， 但 它 的 速度 太 慢 ， 无 
法 应 对 特别 复杂 的 局 面 。 接 痢 我 们 将 介绍 两 种 技术 ， 只 需要 搜索 树 的 一 
小 部 分 就 能 快速 获得 有 用 的 结果 。 其 中 之 一 是 勇 校 〈pruning) 技术 ， 即 
通过 消除 树 的 分 文中 的 一 部 分 来 加 速 搜 索 。 要 进行 有 效 的 剪 核 ， 需 要 把 
问题 相关 的 实践 知识 引入 程序 代码 。 如 果 做 不 到 这 一 点 ， 我 们 还 可 以 考 
处 采 用 有 综 特 卡 洛 树 搜索 (Monte Carlo Tree Search，MCTS) 。MCTS 是 
一 种 随机 搜索 算法 ， 即 使 没有 任何 问题 相关 领域 的 特定 代码 ， 它 也 能 搜 
寻 到 较 好 的 结 

















当 我 们 的 技术 工具 箱 配 备 这 几 项 技术 之 后 ， 束 可 以 开始 构建 能 玩 各 
种 棋盘 或 卡 牌 游戏 的 AI 了 。 


4.1 游戏 分 类 








树 搜索 算法 最 适合 双方 轮流 发 出 动作 且 每 一 回合 只 有 一 个 明确 的 可 
选 动作 组 合 的 游戏 。 很 多 棋盘 游戏 和 卡 牌 游戏 都 符合 这 种 情况 。 然 而 ， 
树 搜索 无 法 帮助 计算 机 去 打 篮 球 、 猜 字谜 或 玩 《 魔 兽 世 界 》。 我 们 可 以 
引入 两 种 特征 ， 来 对 棋盘 游戏 进行 进一步 的 分 类 。 


。 确定 性 与 不 确定 性 。 在 确定 性 的 游戏 中 ， 游 戏 的 过 程 完 全 由 玩家 
的 选择 来 决定 。 而 在 个 确定 性 的 游戏 中 ， 则 会 包含 随机 性 的 元 素 ， 
例如 撕 贷 子 或 洗 牌 。 

。 完全 透明 与 隐藏 信息 。 在 完全 透明 的 游戏 中 ， 双 方 全 程 都 可 以 看 
到 整个 游戏 状态 ， 即 整个 棋盘 都 可 见 ， 或 者 所 有 的 卡 牌 都 摆 在 桌面 
上 。 而 在 隐藏 信息 的 游戏 中 ， 每 个 玩家 只 能 看 到 游戏 状态 的 一 部 
分 。 隐 藏 信息 在 卡 牌 类 游戏 中 尤为 常见 ， 一 般 来 次 ， 每 个 玩家 会 要 
派发 一 手 牌 ， 并 且 无 法 看 到 其 他 玩家 的 牌 。 玩 家 需要 根据 别人 的 游 
戏 决 策 来 猜测 他 们 所 掌握 的 信息 ， 而 这 正 是 隐藏 信息 类 游戏 的 魅力 
所 在 。 














表 4-1 展 示 了 几 球 游戏 ， 并 按照 这 两 种 特征 分 类 的 情况 。 





表 4-1 棋盘 和 卡 牌 游戏 的 分 类 














‘:、 国 际 象棋 西洋 双 陆 棋 





海战 棋 、Stratego 战 棋 扑克 、Scrabble 填 字 游 戏 


在 本 间 中 我 们 主要 关注 确定 性 的 且 完 全 透明 的 游戏 。 在 这 类 游戏 的 


比赛 中 ， 每 一 回合 都 存在 理论 上 最 佳 的 动作 。 游 戏 里 没有 运气 ， 也 没有 
秘密 ， 在 选择 一 个 动作 之 前 ， 我 们 就 知道 对 手 可 能 选择 的 每 一 个 动作 ， 
以 及 自己 之 后 可 能 做 的 所 有 动作 ， 直 到 游戏 结束 为 止 。 理 论 上 ， 在 第 一 
回合 就 可 以 规划 好 整个 游戏 流程 。 极 小 化 极 大 算法 正 是 以 这 样 的 方式 来 
找到 完美 动作 的 。 





但 实际 上 所 有 经 得 起 时 间 考 验 的 游戏 ， 如 国际 象棋 和 围棋 ， 都 包含 
数量 巨大 的 可 能 性 。 从 人 类 的 角度 看 ， 每 一 局 对 弈 都 仿佛 经 历 人 生 一 样 
漫长 ， 而 即使 换 成 计算 机 ， 也 无 法 总 能 计算 到 终 盘 。 


本 间 所 有 示例 包含 的 游戏 特定 逻辑 都 很 少 ， 因 此 只 要 将 代码 稍 作 调 
整 ， 就 可 以 适用 于 任何 确定 性 的 且 完 全 透明 的 游戏 。 要 做 到 这 一 点 ， 我 
们 可 以 依照 goboard 模 块 的 设计 模式 来 修改 Player、Move 和 
GameState 等 类 ， 并 实现 新 的 游戏 逻辑 。GameState 的 基本 函数 包括 
apply_move、legal_moves、is_over 和 winner。 我 们 已 经 为 井 字 棋 
完成 了 一 个 代码 示例 ， 可 以 在 本 书 GitHub 上 的 tt 模块 中 找到 它 。 


其 他 适合 AI 试验 的 游戏 





需要 一 些 灵 感 ? 可 以 查找 下 列 游戏 的 规则 : 
。 国际 象棋 (Chess) ; 


。 西洋 跳棋 (Checkers) ; 


翻转 棋 (Reversi) ; 


。 六 贯 棋 (Hex) ; 


中 国 跳棋 (Chinese Checkers) ; 


非洲 棋 (Mancala) ; 


九 子 棋 (Nine Men’s Morris) ， 


五 子 棋 (Gomoku) 。 


4.2 利用 极 小 化 极 大 搜索 预测 对 手 








那么 应 该 如 何 通 过 计算 机 编程 来 决定 游戏 的 下 一 步 动 作 呢 ? 首先 ， 
我 们 可 以 考虑 人 类 是 如 何 做 出 这 个 决策 的 。 让 我 们 先 从 井 字 棋 开始 。 在 
所 有 确定 性 的 且 完 全 透明 的 棋牌 类 游戏 中 ， 井 字 棋 是 最 简单 的 。 我 们 下 
面 摘 述 的 策略 专业 术语 叫 极 小 化 极 大 Cminimaxing) 。 这 个 术语 是 极 小 
化 Cminimizing) 和 极 大 化 Cmaximizing) 的 缩写 ， 即 我 们 期 望 目 己 的 
得 分 最 大 化 ， 而 对 手 则 希望 我 们 的 得 分 最 小 化 。 可 以 用 一 句 话 总 结 这 个 
算法 : 不 要 觉得 对 手 会 比 你 案 〈 即 要 假设 对 手 至 少 和 你 一 样 隐 明 ) 。 


让 我 们 看 看 极 小 化 极 大 算法 在 实践 中 是 如 何 工 作 的 。 观 察 图 4-1，x 
接 下 来 要 做 什么 动作 ? 这 个 棋局 并 不 复杂 ， 在 右 下 角落 子 束 能 立刻 记得 
比赛 。 这 个 情况 可 以 归纳 为 一 条 通用 规则 : 如 宁 存 在 一 个 动作 可 以 立刻 








电 得 比赛 ， 那 么 就 采用 它 。 这 种 做 法 不 可 能 出 错 。 


如 果 x 在 这 几 个 地 方 落 子 ， 
O 就 会 获胜 。 


(x I 
GO| < 一 x 必须 在 这 里 


轮 到 :的 回 和 侣 。 “党 了 才能 赢 。 








图 4-1 下 一 步 x 应 该 在 哪里 沙子 ? 图 中 的 情形 很 简单 : 在 右 下 角落 子 ， 可 以 立刻 赢得 比赛 








我 们 可 以 在 代码 中 实现 这 个 规则 ， 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 找到 可 以 立刻 赢得 比赛 的 动作 





def find winning move(game_ state, next player): 

for candidate move in game_ state.legal moves(next player): <--- 循环 
遍历 所 有 合法 的 动作 
next_state = game_ state.apply move(candidate move) <--- 计算 如 果 选 
择 这 个 动作 ， 棋 局 会 变 成 什么 样 


























if next state.is over() and next state.winner == next player: 
return candidate move <--- ”这 个 动作 可 以 赢 棋 ! 那么 就 不 需要 再 继续 寻找 









































7 
return None <--- 这 个 回合 无 法 直接 获胜 

















图 4-2 展 示 了 这 个 函数 会 和 届 历 检查 的 可 能 后 续 棋 局 。 网 中 一 个 棋局 
指 癌 多 个 可 能 后 续 棋 局 这 种 结构 称 为 游戏 树 (game tree) 。 











er is, ee < 
其 中 next_player = WB OO 人 
xlx| “Xx| lx x X| X 
父 xi 文 区 x Ix 
olol olol oOo OO OOIX 
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next_state 会 循环 遍历 这 5 种 
可 能 的 棋局 。 














图 4-2 ”搜寻 获胜 动作 的 算法 示意 。 从 图 上 方 的 棋局 开始 ， 算 法 会 循环 通 历 每 一 个 可 能 的 动作 ， 
并 计算 这 个 动作 将 会 导致 的 游戏 状态 。 接 着 检查 这 些 可 能 的 游戏 状态 是 否 会 导致 > 获胜 

















让 我 们 稍微 再 退 一 步 : 这 个 棋局 是 如 何 出 现 的 ? 它 的 上 一 步 棋局 可 
能 如 图 4-3 所 示 。O 玩 家 天 真 地 和 硕 望 能 在 棋盘 下 方 做 出 三 连 棋 。 但 这 得 先 
假设 x 玩 家 会 配合 。 这 个 局 面 也 暗示 了 我 们 前 面 的 规则 的 一 个 必然 推 
论 : 不 要 选择 任何 会 使 对 手 获胜 的 动作 。 


如 果 O 落 在 这 几 个 方 格 中 的 
任意 一 个 ， 则 x 就 可 以 在 下 
胜 。 


一 回合 直接 获胜 
A 
@ 〇 | < 一 0 必须 落 在 这 里 才能 防止 x 


三 连 棋 
轮 到 O 的 回 连 # 























图 4-3” 接 下 来 0 应 该 做 什么 动作 ?如果 O 在 左下 方 下 棋 ， 那 么 必须 得 预料 到 x 可 以 在 右 下 方 回 
应 ， 并 直接 赢得 比赛 。 因 此 O 必 须 找到 唯一 能 阻止 这 种 情形 的 动作 











代码 清单 4-2 实 现 了 这 个 逻辑 。 





代码 清单 4-2 ”避免 让 对 手 直接 获胜 的 函数 





def eliminate losing moves(game state, next player): 
opponent = next player.other() 
possible moves = [] <--- possible _moves 用 来 存放 所 有 值得 考虑 的 动作 列表 
for candidate move in game_ state.legal moves(next player): <--- 循环 
遍历 所 有 合法 的 动作 
next_state = game_state.apply_move(candidate move) <--- ”计算 如 果 走 























这 一 步 ， 棋 局 会 变 成 什么 样 
opponent_winning move = find winning move(next_state, opponent) <e- 
-- ”这 一 步 会 使 对 手 获胜 吗 ? 如 果 不 会 ， 那 么 这 一 步 动 作 是 可 行 的 
if opponent winning _ move is None : 
possible moves.append(candidate move) 
return possible moves 























现在 我 们 已 经 知道 落 子 时 必须 防止 对 手 直接 进入 获胜 局 面 。 因 此 ， 





我 们 也 应 当 假 定 对 手 也 会 这 么 应 对 。 考 虑 到 这 一 点 的 话 ， 应 该 如 何 赢得 
比赛 昵 ? 让 我 们 看 一 看 图 4-4 中 的 棋局 。 


如 果 x 在 这 里 落 子 ， 
就 能 够 创造 两 个 获 
胜 的 途径 。 


轮 到 x 的 回合 








图 4-4 ”x 应 该 采取 什么 动作 ? 如 果 x 在 棋盘 中 心 落 子 ， 则 有 两 种 方法 可 以 得 到 三 连 棋 : 1 处 的 顶 
部 中 间 和 2 处 的 右 下 角 。O 只 能 阻止 其 中 一 种 情况 ， 因 此 可 以 确保 获胜 






































如 琳 在 中 心 位 置 落 子 ， 就 会 得 到 两 个 能 够 完成 三 连 棋 的 点 位 :中 上 
或 右 下 。 而 对 手 无 法 同时 阻止 这 两 个 点 位 。 我 们 可 以 用 一 个 通用 规则 来 
描述 这 个 方法 : 和 尝试 寻找 一 个 动作 ， 让 对 手 无 法 阻止 我 们 后 续 的 获胜 动 
作 。 这 个 逻辑 在 一 听 感 觉 很 复杂 ,但 有 了 前 面 编写 好 的 函数 ， 实 现 它 束 
很 容易 了 ， 如 代码 清单 4-3 所 示 。 











代码 清单 4-3 ”找到 两 步 棋 之 后 可 以 保证 获胜 的 函数 





def find two_ step win(game_ state, next player): 
opponent = next player.other() 
for candidate move in game_ state.legal moves(next player): <--- 循环 
遍历 所 有 合法 动作 
next_state = game_state.apply move(candidate move) <--- 计算 如 果 走 
这 一 步 ， 棋 局 会 变 成 什么 样 























good responses = eliminate losing moves(next state, opponent) €--- 
对 手 能 不 能 做 出 良好 的 防御 ? 如 果 不 能 ， 就 选择 这 一 步 动作 
if not good_responses : 
return candidate move 


return None <--- 不 论 己方 选择 哪个 动作 ， 对 方 都 能 阻止 己方 获胜 



































接 独 考虑， 对 手 也 应 当 能 预料 到 我 们 会 答 试 这 样 做 ， 并 且 也 会 试图 
阻止 这 种 情形 出 现 。 现 在 读者 应 该 能 看 到 一 个 通用 策略 的 雏形 了 。 

(1) 先 检查 是 否 可 以 在 下 一 步 直接 获胜 。 如 果 可 以 ， 就 这 样 行 
动 。 





(2) 如 果 不 可 以 ， 再 看 看 对 手 能 否 在 下 一 步 获胜 。 如 采 能 ， 束 党 
试 阻 止 它 。 





(3) 如 果 对 手 不 能 获胜 ， 再 看 看 能 售 通 过 第 二 步 棋 取 胜 。 如 果 
能 ， 就 按照 这 两 步 棋 来 沙子 。 








(4) 如 果 不 能 ， 再 看 看 对 手 的 第 二 步 棋 是 否 能 获胜 。 





注意 ， 前 面 3 个 函数 的 结构 都 比较 相似 : 每 个 函数 都 会 通 历 全 部 合 
法 动作 ， 并 检查 这 个 动作 之 后 所 得 到 的 假想 棋局 。 此 外 ， 每 个 函数 部 建 
立 在 前 一 个 函数 的 基础 上 ， 以 模拟 对 手 的 回应 动作 。 如 果 把 这 个 概念 再 
进一步 泛 化 ， 残 可 以 得 到 一 种 能 够 始终 找到 最 佳 动作 的 算法 。 


4.3 并 字模 推 淘 : 一 个 极 小 化 极 大 算法 的 示例 





在 4.2 节 中 ， 我 们 研究 了 如 何 提 前 一 两 步 预测 对 手 的 有 反应。 在 本 市 
中 ， 我 们 将 展示 如 何 将 这 个 策略 进一步 扩展 ， 并 应 用 在 井 字 棋 中 以 选择 
最 佳 动 作 。 它 的 核心 思想 与 前 面 完全 一 致 ， 但 需要 做 得 更 加 灵活 ， 才 能 
够 预测 任意 回合 之 后 的 动作 。 








首 移 让 我 们 定义 一 个 枚 举 类 型 来 表示 棋局 的 3 种 可 能 结 末 ， 即 获 
胜 、 失 败 和 平局 ， 如 代码 清单 4-4 所 示 。 这 个 结果 定义 是 针对 特定 执 子 
方 的 : 如 宁 己 方 失 败 了 ， 那 就 代表 对 方 获胜 了 。 




















代码 清单 44 表示 游戏 结果 的 枚 举 类 型 














class GameResult(enum.Enum) : 
loss = 1 


draw = 2 
win = 3 





假设 有 一 个 函数 best_result， 可 以 给 出 某 个 游戏 状态 之 后 棋 手 能 
够 获得 的 最 佳 结 果 。 如 果 该 玩家 可 以 保证 胜利 ， 那 么 不 论 需要 经 过 多 少 
步 、 过 程 多 复杂 ，best_result 函 数 都 会 返回 GameResult.win。 如 果 
棋 手 无 法 获胜 ， 但 可 以 强制 平局 ， 该 函数 将 返回 GameResu1lt.draw。 
其 他 情况 下 ， 它 将 返回 GameResult .loss。 如 果 我 们 假设 这 个 函数 已 
经 存在 ， 就 可 以 轻松 地 编写 一 个 函数 在 回合 中 选择 动作 : 遍历 所 有 可 能 
的 动作 ， 逐 一 调用 best_result， 然 后 选择 结果 最 佳 的 动作 即 可 。 当 
然 ， 多 个 不 同 的 动作 也 可 能 得 到 相同 的 结果 ， 这 时 随机 挑选 其 中 一 个 动 
作 即 可 。 代 码 清单 4-5 展 示 了 这 个 逻辑 的 实现 。 

















代码 清单 45 实现 极 小 化 极 大 搜索 的 代理 














class MinimaxAgent(Agent ) : 
def select move(self, game_state): 
winning moves = [] 
draw_moves = [|] 
losing moves = [|] 
for possible move in game state.legal moves(): <--- 循环 遍历 所 
有 合法 的 动作 
next_state = game_state.apply_move(possible_move) <--- 计 
算 如 果 选 择 这 个 动作 ， 会 导致 什么 样 的 游戏 状态 


opponent best outcome = best result(next state) <--- 由 于 





























下 一 回合 对 方 执 子 ， 因 此 需要 找到 对 方 可 能 获得 的 最 佳 结果 ， 这 个 结果 的 反面 就 是 已 方 的 结 
果 


our_best outcome = reverse game result(opponent best outcome) 
if our best outcome == GameResult.win: <--- 根据 这 个 动作 导 
致 的 最 终结 果 来 给 它 分 类 
winning moves.append(possible move) 
elif our best outcome == GameResult.draw: 
draw_moves.append(possible move) 
else: 
losing moves.append(possible move) 














if winning moves: <--- ”挑选 能 获得 最 佳 结果 的 动作 
return random.choice(winning moves) 

if draw moves: 
return random.choice(draw moves) 

return random.choice(losing moves) 











现在 剩 下 的 问题 就 是 如 何 实现 best_result 了 。 与 4.2 节 相同 ， 可 
以 从 游戏 终 盘 开始 向 前 回溯 。 代 码 清单 4-6 展 示 了 一 个 简单 的 情形 : 如 
果 游 戏 已 经 结束 ， 则 只 有 一 个 可 能 的 结果 ， 直 接 返 回 它 即 可 。 








代码 清单 4-6 极 小 化 极 大 搜索 的 第 一 步 








def best result(game_ state): 
if game_ state.is over(): 
if game state.winner() == game_state.next player: 
return GameResult.win 


elif game state.winner() is None: 
return GameResult.draw 

else: 
return GameResult.1oss 





但 如 果 当 前 处 于 盘 中 茶 个 阶段 ， 就 需要 问 前 搜索 未 来 状态 了 了。 至 
此 ， 读 者 大 概 已 经 熟悉 这 个 模式 了。 首先 循环 吉 历 所 有 可 能 的 动作 ， 并 
计算 下 一 个 游戏 状态 。 接 着 假设 对 方 会 尽力 反击 己方 的 假想 动作 ， 对 这 
个 新 棋局 调用 best_result， 得 到 对 方 从 这 个 新 棋局 所 能 够 获得 的 最 佳 
结果 ， 这 个 结果 的 反面 就 是 己方 的 结果 。 最 后 在 遍历 完 所 有 动作 之 后 ， 
选择 能 给 己方 带 来 最 佳 结果 的 那个 动作 。 代 码 清单 4-7 展 示 了 这 个 逻辑 














的 实现 ， 它 也 是 best_result 函 数 实现 的 后 半 部 分 。 


代码 清单 4-7 ”实现 极 小 化 极 大 搜索 





best result so far = GameResult.1oss 
for candidate move in game_ state.legal moves(): 
next_state = game_ state.apply move(candidate move) <--- 看 看 如 
果 走 这 一 步 ， 棋 局 会 变 成 什么 样 
opponent best result = best result(next state) <--- ”找到 对 方 的 
最 佳 动作 














our_result = reverse game result(opponent best _ result) <--- 无 
论 对 方 想 要 什么 ， 我 们 想 要 的 就 是 它 的 反面 
if our result.value > best result so far.value: <--- 看 看 当前 的 
结果 是 否 比 之 前 得 到 的 结果 更 好 
best _ result so far = our result 
return best result so far 








图 4-5 显 示 了 在 井 字 棋 的 某 个 棋局 中 ， 这 个 函数 会 考虑 哪些 未 来 棋 
局 。 
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轮 到 x 的 回合 从 这 个 模 局 出 发 ， 


XX x 来 说 的 最 佳 结 

( 获胜 /x 诸 胜 | ee 

xX < xX 
O XIO 

xixI5 XX 区 

















O x |O 〇 O 从 这 个 棋局 出 发 ， 对 
|G| 又 来 说 的 最 佳 结果 


© XxXIo 
平局 \o 效 用 获胜 / NT 局 


Ey 
XIXIO XXIO XOO XI IO 
轮 到 x 的 回合 OIO OIO OX OIOX 
XXIO X|X|O XiXIO X|XIO 


平局 | .获胜 | 上 





轮 到 O 〇 的 回合 























从 这 个 棋局 出 发 ， 对 

X|X|O 〇 来 说 的 最 佳 结果 。 > O X|X|O 
OOX XIO OIOX 
xix|o xlxlo xlxIo 


图 4-5” 井 字 棋 的 一 棵 游戏 树 。 在 最 上 方 的 棋局 中 ， 轮 到 x 的 回合 。 如 果 x 在 棋盘 上 中 位 置 落 
子 ，O 可 以 保证 获胜 ， 如 果 x 在 棋盘 左 中 位 置 落 子 ，x 将 获胜 ;如果 x 在 棋盘 右 中 位 置 落 子 ， 则 0 
可 以 强制 平局 。 因 此 ，x 应 当选 择 棋 盘 左 中 位 置 落 子 


义 | 〇 
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如 果 将 这 个 算法 应 用 于 类 似 井 字 棋 这 样 的 简单 游戏 ， 就 会 得 到 一 个 
战 无 不 胜 的 棋 手 。 读 者 如 果 有 兴趣 ， 可 以 试 着 与 它 下 棋 ， 可 以 采用 本 书 
GitHub 上 的 play_ttt.py 示 例 。 理 论 上 ， 这 个 算法 也 适用 于 国际 象棋 、 围 
棋 或 任何 其 他 确定 性 的 且 完全 透明 的 游戏 。 但 在 实践 中 ， 对 这 几 个 棋 类 
游戏 来 说 ， 这 个 算法 都 太 慢 了 。 





4.4 通过 勇 权 算 法 缩减 搜索 空间 


在 前 面 的 井 字 棋 示 例 中 ， 我 们 计算 了 所 有 可 能 的 棋局 ， 以 便 找 到 完 
美的 策略 。 在 井 字 棋 中 ， 可 能 的 棋局 一 共 才 不 到 30 万 种 ， 对 现代 计算 机 
来 说 简直 是 小 亲 一 碟 。 但 我 们 能 够 将 这 个 技术 扩展 到 那些 更 有 趣 的 棋 类 
游戏 中 吗 ? 例如， 西洋 跳棋 大 约 有 5x10” 种 可 能 的 棋局 。 从 技术 上 讲 ， 
用 现代 计算 机 集群 来 搜索 这 么 大 的 空间 是 有 可 能 的 ， 但 也 得 花费 好 几 年 
时 间 。 而 考虑 国际 象棋 和 围棋 的 话 ， 可 能 的 棋局 数量 已 经 超过 了 宇宙 中 
原子 的 总 数 〈“ 和 粉丝 们 ?也 很 乐意 提 到 这 一 点 ) 。 要 完全 搜索 如 此 大 的 空 
间 是 不 可 能 的 。 





要 在 复杂 的 棋 关 游戏 中 采用 树 搜 索 ， 我 们 需要 一 种 策略 来 消除 树 的 
部 分 。 这 种 寻找 树 中 可 以 忽略 的 部 分 的 过 程 称 为 本 








游戏 树 是 二 维 的 : 它 具 有 宽度 和 深度 。 宽 度 是 指 东 个 给 定 棋局 下 可 
能 动作 的 数量 。 而 深度 是 指 从 某 个 棋局 到 可 能 的 最 终 游戏 状态 的 回合 
数 。 在 棋局 中 的 每 一 回合 ， 这 两 个 数值 都 会 变化 。 








对 于 茶 个 特定 的 棋 类 游戏 ， 我 们 通常 会 考虑 它 的 典型 客 度 和 典型 深 


度 ， 并 以 此 来 估计 游戏 树 的 尺寸 。 游 戏 树 中 棋局 的 数量 大 致 由 公式 W 4 
给 出 ， 其 中 W 是 平均 宽度 ，d 是 平均 深度 。 图 4-6 和 图 4-7 显 示 了 间 字 棋 游 
戏 树 的 宽度 和 深度 。 例 如 ， 在 国际 象棋 中 ， 每 一 回合 玩家 通常 有 大 约 30 
种 选择 ， 并 且 一 局 棋 需 要 经 过 大 约 80 回 合 才 结束 ， 因 此 ， 游 戏 树 的 尺寸 
可 以 估算 为 305 ~ 1018。 而 围棋 通常 每 一 回合 有 250 种 合法 动作 ， 一 场 
比赛 可 能 持续 150 回 合 ， 这 样 算出 的 游戏 树 尺寸 为 25039 s 103539。 





























井 字 棋 游戏 树 的 最 大 宽度 是 9《〈 即 开局 第 一 回合 ) 。 








图 4-6 井 字 棋 游 戏 树 的 宽度 : 最 大 宽度 为 9， 因 为 第 一 回合 时 有 9 个 可 能 选择 。 但 之 后 每 一 加 
合法 的 动作 数量 都 会 减少 ， 因 此 平均 宽度 为 4 一 5 个 动作 
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图 4-7 井 字 棋 游 戏 树 的 深度 最 大 深度 为 9 个 回合 ， 在 那 之 后 ， 棋 盘 就 填 满 了 

















W 4 这 个 公式 是 呈 指 数 增长 的 一 个 例子 : 当 增 加 搜索 深度 时 ， 需 要 
考虑 的 棋局 数量 会 迅速 增加 。 想 象 一 下 平均 宽度 和 平均 深度 大 约 为 10 的 
游戏 ， 可 供 搜索 的 完全 游戏 树 将 包含 10"《〈 即 100 亿 ) 个 棋局 。 


现在 让 我 们 假设 已 经 想 出 了 合适 的 可 校 方案 。 首 先 ， 我 们 找到 办 法 
可 以 在 每 个 回合 中 快速 忽略 两 个 可 能 的 动作 ， 将 搜索 树 的 有 效 宽度 减少 
到 8。 其 次 ， 我 们 发 现 只 需要 加 前 预测 9 步 而 不 是 10 步 ， 就 能 找 出 较 好 的 
游戏 结果 。 这 样 我 们 就 只 需要 搜索 8" 〈 约 1.3 亿 ) 个 棋局 了 。 与 完整 的 搜 
索 空 间 相 比 ， 这 样 做 能 够 节省 超过 98% 的 计算 量 ! 可 以 看 到 ， 剪 枝 的 关 
键 点 就 在 于 ， 即 使 只 略微 缩减 搜索 的 宽度 或 深度 ， 也 能 够 大 大 减少 动作 
选择 所 需 的 时 间 。 图 4-8 展 示 了 甬 术 对 一 柠 很 小 的 搜索 树 的 影响 。 








在 每 一 个 阶段 ， 找 到 办 法 消除 4 个 
可 能 选项 中 的 一 个 。 


原始 搜索 树 需 要 访问 
4X4X4=64 个 叶 节点 。 和 





经 过 剪 枝 ， 只 剩 下 27 个 需要 访问 的 叶 节点 了 。 





图 4-8“ 剪 枝 可 以 迅速 缩小 游戏 树 尺 寸 。 图 中 搜索 树 的 宽度 为 4、 高 度 为 3， 总 共 需 要 检查 64 个 叶 
节点 。 假 设 我 们 找到 方法 可 以 在 每 一 回合 将 4 个 可 能 选项 中 的 1 个 消除 ， 那 么 最 终 需 要 访问 的 叶 
节点 就 只 剩 下 27 个 了 














本 节 将 介绍 两 种 前 校 技 术 : 一 种 是 用 于 减少 搜索 深度 的 棋局 评 佑 冰 
数 ， 男 一 种 是 用 于 减少 搜索 宽度 的 o-B 蔓 枝 (alpha-beta pruning) 。 这 
两 项 技术 共同 构成 了 经 典 棋盘 游戏 AI 的 支柱 。 





4.4.1 通过 棋局 评估 减少 搜索 次 度 


如 果 志 历 游戏 树 直 人 至 终 盘 ， 就 可 以 直接 计算 出 获胜 者 。 但 我 们 如 何 
在 棋局 的 早期 做 到 这 一 点 呢 ? 人 类 棋 手 往往 在 盘 中 就 对 哪 一 方 领 匈 有 所 
感知 。 即 使 是 初学 者 ， 也 可 以 本 能 地 体会 到 当前 棋局 是 他 在 碾 压 对 手 ， 
还 是 在 挣扎 求生 。 如 果 可 以 在 计算 机 程序 中 捕 换 到 这 种 感觉 ， 就 能 够 大 
大 减少 搜索 所 需 的 深度 。 用 来 模仿 这 种 感 党 ， 去 判断 哪 一 方 领先 以 及 领 
先 多 少 的 函数 ， 叫 作 棋 局 评估 函数 。 








在 许多 棋 类 游戏 中 ， 我 们 可 以 利用 对 规则 的 了 解 来 手工 制作 棋局 评 
佑 函数 。 


。 西洋 跳棋 一 一 棋盘 上 每 个 常规 棋子 算 作 1 分 ， 再 加 上 每 个 国王 算 作 2 
分 。 计 算 己 方 棋子 的 总 分 ， 并 减 去 对 方 的 分 数 。 

。 国际 象棋 一 一 每 个 兵 计 1 分 ， 每 个 象 或 马 计 3 分 ， 每 个 车 计 5 分 ， 星 
后 计 9 分 。 计 算出 己方 棋子 的 总 分 ， 并 减 去 对 方 的 分 数 。 








这 两 个 评估 函数 其 实 部 是 高 度 简化 的 ， 西 洋 跳 棋 或 国际 象棋 引擎 会 
使 用 更 复杂 的 局 发 式 规则 。 例 如 ， 在 这 两 种 棋 中 ， 人 工 智 能 都 会 尝试 主 
动 吃 掉 对 方 的 棋子 ， 并 保护 己方 的 棋子 。 此 外 ， 它 们 也 愿意 牺牲 较 弱 的 
棋子 来 兄 掉 对 方 更 强 的 棋子 。 


在 围棋 中 ， 也 可 以 做 出 一 个 与 这 两 种 棋 相似 的 局 发 式 规则 :将 吃 挥 
的 棋子 相 加 ， 然 后 减 去 对 方 吃 挥 的 棋子 数量 。 (等 效 地 ， 也 可 以 计算 棋 
盘 上 留存 棋子 的 数量 差 。〉 代码 清单 4-8 展 示 了 这 个 局 及 式 规则 的 计 
算 。 但 事实 证 明 ， 这 个 局 发 式 规则 并 不 是 一 个 有 效 的 评估 函数 。 在 围棋 
中 ， 吃 子 的 威胁 往往 比 实际 提 子 更 为 重要 。 一 盘 棋 持续 到 一 百 多 个 回合 
才 第 一 次 提 子 的 情况 也 是 很 常见 的 。 要 制作 一 个 能 够 在 棋局 中 准确 捕捉 
这 种 微妙 游戏 状态 的 评估 函数 实际 上 是 非 第 困难 的 。 














代码 清单 4-8 ”一 个 高 度 简化 的 围棋 棋局 评估 启发 式 规 则 








def capture diff(game state): 
black_stones = 0 
white stones = 6 
for r in range(1, game_ state.board.num rows + 1): 
for c in range(1, game_state.board.num cols + 1): 
p = gotypes.Point(r, c) 
color = game_state.board.get(p) 
if color == gotypes.Player.black: 
black_ stones += 1 
elif color == gotypes.Player .white: 
white stones += 1 
diff = black stones - white stones <--- 计算 棋盘 上 黑子 和 和 白 子 的 数量 差 
。 这 和 计算 双方 提 子 数量 差 是 一 致 的 ， 除 非 某 一 方 提 前 跳 过 回合 


























if game_state.next_player == gotypes.Player.black: <--- 如果 是 黑 方 
落 子 的 回合 ， 那么 返回 “黑子 数量 - 白 子 数量 ” 
return diff 





























return -1 * diff <--- 如 果 是 白 方 落 子 的 回合 ， 那 么 返回 “ 白 子 数量 -黑子 数量 ” 














尽管 如 此 ， 这 个 高 度 简 化 的 启发 式 规 则 仍然 可 以 用 来 演示 剪 极 技 
术 。 这 么 做 并 不 能 创造 出 强大 的 围棋 AI， 但 至 少 还 是 比 完 全 随机 的 动作 
选择 要 好 得 多 。 第 11 章 和 第 12 章 中 会 介绍 如 何 用 深度 学 习 来 生成 更 佳 的 
评估 函数 。 








选择 好 评估 函数 之 后 ， 束 可 以 着 手 实 现 深度 六 校 了 。 这 样 就 不 必 一 
直 搜索 到 棋局 终 盘 ， 而 只 需要 癌 前 搜索 固定 的 步 数 ， 再 调用 评估 函数 来 
估计 谁 更 有 可 能 获胜 











图 4-9 展 示 了 进行 深度 剪 枝 的 游戏 树 的 一 部 分 (为 了 节省 页 面 空 
间 ， 我 们 省 略 了 大 部 分 分 支 ， 但 是 实际 算法 会 检查 这 些 没有 展示 的 分 
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图 4-9 


- 旦 . 


里 ， 





用 于 评估 棋局 。 如 果 黑 方 选择 最 右边 的 分 文 ， 


深度 0 

















黑 方 回合 
深度 1 下 
白 方 回合 | | 为 节省 页 面 空间 ， 这 里 省 
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部 分 围棋 游戏 树 。 图 中 ， 游 戏 树 向 前 搜索 的 深度 是 2 步 。 

















中 间 的 分 文 





白 方 可 以 提 走 1 子 ， 对 黑 方 产生 -1 的 评分 ， 如 
果 黑 方 选择 中 间 的 分 支 ， 黑 子 就 是 暂时 安全 的 ， 于 是 这 个 分 支 的 评分 为 0。 因 此 ， 黑 方 应 当选 择 





搜索 2 步 之 后 检查 双方 提 子 的 数 





在 这 标 游 戏 树 中 ， 向 前 搜索 2 步 ， 并 使 用 吃 子 数量 作为 棋局 评估 函 


数 。 初 始 位 置 是 黑 方 落 子 的 回合 ， 有 一 颗 黑子 只 剩 1 口气 。 这 时 黑 方 应 
该 怎么 做 ?如果 黑子 直接 向 下 方 长 山 ， 如 游戏 树 的 中 间 分 支 所 示 ， 则 黑 
子 会 暂时 安全 。 如 果 黑 方 在 其 他 地 方 落 子 ， 则 白 方 可 以 直接 吃 掉 它 。 图 
中 左 侧 的 分 六 展示 了 这 种 情况 的 许多 可 能 性 之 一 。 


在 问 前 角 历 2 步 之 后 ， 对 当前 的 棋局 调用 评估 函数 。 在 本 例 中 ， 任 
何 日 方 吃 子 的 分 文 都 会 得 到 日 方 +1、 黑 方 -1 的 得 分 。 


而 所 有 其 他 分 文 的 


得 分 均 为 0( 在 本 例 中 没有 其 他 办 法 可 以 在 两 回合 中 吃 子 )。 在 这 种 情 


况 下 ， 黑 方 选 择 唯一 能 保护 己方 棋子 的 动作 。 





代码 清单 4-9 展 示 了 深度 筋 校 的 实现 。 





代码 清单 49 ”包含 深度 甬 校 的 极 小 化 极 大 搜索 





def best result(game_ state, max depth, eval fn): 
if game_state.is over(): <--- 如 果 游 戏 已 经 结束 ， 就 可 以 立即 得 知 哪 一 方 获 








胜 
if game state.winner() == game_state.next player: 
return MAX_ SCORE 
else: 
return MIN_ SCORE 





























if max_depth == 6: <--- 已 达到 最 大 搜索 深度 。 使 用 启发 式 规则 来 确定 当前 
动作 序列 的 好 坏 


return eval fn(game_state) 


best so far = MIN SCORE 
for candidate move in game_state.legal moves(): <--- ”人 裔 历 所 有 可 能 动 





作 
next_state = game_ state.apply move(candidate move) <--- ”如 果 采 
取 这 个 动作 ， 看 看 棋局 会 变 成 什么 样 
opponent best result = best result( <--- ”从 当前 棋局 开始 ， 找 到 对 
方 的 最 佳 结果 
next_state, max depth - 1, eval fn) 
our_result = -1 * opponent best result <--- 无 论 对 方 想 要 什么 ， 我 
们 想 要 的 就 是 它 的 反面 
if our_ result > best so far: <--- ”查看 这 个 结 昌 
佳 结果 还 要 好 
best so far = our result 



































return best so far 








这 段 代码 和 代码 清单 4-7 中 的 极 小 化 极 大 算法 看 起 来 很 相似 ， 因 此 
将 它们 并 排 对 比 可 能 会 有 所 帮助 。 注 意 它们 有 如 下 区 别 。 





。 极 小 化 极 大 算法 不 再 返回 一 个 表示 获胜 、 失 败 或 平局 的 枚 举 值 ， 而 
是 返回 一 个 数字 ， 用 来 表示 评估 函数 的 值 。 传 统 上 ， 我 们 从 下 一 回 
合 的 执 子 方 视 角 来 计算 得 分 : 得 分 越 高 意味 着 下 一 回合 执 子 方 更 有 











希望 获胜 。 当 我 们 从 对 方 的 视角 评估 棋局 之 后 ， 只 要 将 得 分 乘 以 
-1， 就 可 以 算 回 到 上 自己 的 视角 。 
。 max_depth 参 数 决 定 要 提前 搜索 的 步 数 。 每 经 过 一 个 回合 ， 这 个 值 
减 1。 
。 当 max_depth 变 成 0 时 ， 就 可 以 停止 搜索 并 调用 棋局 评估 函数 了 。 
读者 可 以 尝试 编写 自己 的 评估 函数 ， 观 察 它 们 如 何 影响 围棋 机 器 人 
ae 做 的 效果 肯定 比 我 们 
给 出 的 简单 示例 好 。 


4.4.2 ”利用 oc-B 筋 校 缩减 搜索 宽度 


如 图 4-10 所 示 ， 当 前 回合 黑 方 执 子 ， 正 考虑 在 有 小 方 框 标 记 的 交叉 
点 上 沙子 。 如 果 黑 方 这 么 做 了 ， 白 方 就 可 以 在 A 点 沙子， 从 而 吃 掉 4 颗 
黑子 。 对 黑 方 来 说 ， 这 显然 是 一 场 灾难 ! 那么 如 果 日 方 在 B 点 沙子 ， 会 
如 何 呢 ? 好 吧 ， 谁 还 会 在 乎 呢 ? 白 方 在 A 点 的 回应 已 经 足够 糟糕 了 。 在 
黑 方 的 角度 来 看 ， 并 不 需要 在 乎 A 点 是 不 是 白 方 的 最 佳 选择 。 一 旦 找到 
了 白 方 的 一 个 强力 回应 ,我们 就 可 以 否决 有 小 方 框 标 记 的 交叉 点 上 的 落 
子 ， 转 而 去 寻找 下 一 个 方案 了 。 这 就 是 a-B 剪 枝 的 思路 。 


























白 方 有 一 个 强力 回应 : 
可 以 在 A 点 沙子 提 走 4 子 。 


93ScTT SS 
黑 方 想 要 评估 这 个 
落 了 动作 的 效果 。 “了 人 @@ 一 @C@ 
OO 3 OB 一作 
也 许 白 方 落 子 在 B 点 会 更 好 ， 
但 是 黑 方 已 经 不 需要 再 检查 
这 种 情况 了 。 











图 4-10 ” 黑 方正 在 考虑 在 有 小 方 框 标记 的 交叉 点 上 沙子 。 如 果 黑 方 在 此 处 落 子 ， 则 白 方 可 以 在 A 


点 回应 ， 并 吃 掉 黑 方 4 颗 子 。 这 个 结果 对 黑 方 来 说 太 糟 糕 了 ， 因 此 可 以 立即 否定 它 ， 而 不 再 需要 
去 考虑 白 方 其 他 的 可 能 回应 了 《如 B 点 ) 




























































































让 我 们 来 看 看 如 何在 这 个 棋局 中 应 用 a-B 剪 枝 算法 。 该 算法 在 开始 
阶段 与 第 规 深度 檀 校 树 搜索 算法 没有 太 大 区 别 。 图 4-11 展 示 了 算法 的 第 
一 步 : 选择 一 个 动作 ， 并 站 在 黑 方 的 角度 上 做 出 评估 。 这 个 动作 落 子 在 
图 中 A 点 上 ， 接 着 我 们 对 它 做 出 深度 为 3 的 完全 评估 。 从 图 中 可 以 看 
到 ， 无 论 白 方 如 何 回应 ， 黑 方 都 至 少 能 够 岂 挥 2 子 。 因 此 这 个 分 支 的 评 


分 为 黑 方 +2。 
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2 


在 这 个 点 落 子 ， 黑 方 一 一 一 了 黑 方 :2 
可 以 提 走 2 子 ， 因 此 评 
估 为 +2。 








as- 一 一 ~ 为 黑 方 评估 A 点 的 落 子 ， 
直到 深度 为 3。 





O00 @OO : 
| 洒 加 | 评估 更 多 的 
二 和 0 0 
O71 @— CO 二 ?一 Ba | 健一 
黑 方 +2 
@- 
O8@ eee eee 
白 方 -2 
图 4-11 oa-B 剪 校 中 的 第 一 步 : 完全 评估 黑 方 的 第 一 个 可 能 动作 ， 对 黑 方 来 说 ， 此 动作 的 评分 为 





























+2。 到 目前 为 止 ， 算 法 与 4.4.1 节 中 介绍 








的 深度 剪 枢 搜 索 算 法 完全 相同 




















接 看 ， 我 们 考虑 黑 方 的 下 一 个 可 能 


动作 ， 即 图 4-12 中 标记 的 B 点 。 


和 深度 前 枝 搜索 相同 ， 我 们 可 以 尝试 分 析 日 方 了 折 有 可 能 的 回应 动作 ， 并 
逐一 评估 。 日 方 可 以 在 左上 角落 子 ， 并 吃 挥 4 壬 黑子 。 对 黑 方 来 说 ， 这 
个 分 支 的 评分 为 -4。 而 我 们 在 上 一 回合 中 已 经 分 析 过 ， 如 果 黑 方 在 A 扣 
沙子 ， 就 可 以 至 少 得 到 +2 的 评分 。 而 黑 方 如 果 选 择 在 B 点 落 子 ， 那 么 白 








方 束 可 能 将 黑 方 的 评分 限制 到 -4， 甚 至 还 可 能 更 低 。 由 于 -4 已 经 比 +2 差 


很 多 ， 这 里 就 不 需要 再 进一步 搜索 了 。 





这 样 白 方 的 其 他 十 几 个 回应 动作 


都 不 需要 再 评估 了 ， 并 且 每 个 回应 动作 之 后 还 有 更 多 可 能 的 棋局 组 合 。 


因此 ， 我 们 可 以 累积 节省 很 多 计算 量 ， 
索 相 同 的 动作 选择 。 


但 仍然 得 到 与 深度 为 3 的 完全 搜 


-@O 〇 
现在 为 黑 方 评 估 ® A- 
B 点 落 子 动作 。 ,BO 〇 全 





这 一 步 动作 已 经 在 前 面 











进行 了 完整 的 评估 。 T 
白 方 +4 有 
O 
oe 
O@- BOON 
OFT-4+ OT 
这 个 棋局 证 明 在 B 点 落 子 这 一 步 已 经 不 需要 
比 在 A 点 落 子 差 。 再 评估 了 。 











图 4-12 ”a-B 琢 枝 的 第 二 步 : 现在 对 黑 方 的 第 二 个 可 能 动作 进行 评 佑 。 这 时 候 ， 白 方 有 一 个 回应 
动作 ， 可 以 吃 掉 4 颗 黑子 。 对 黑 方 来 说 ， 该 分 文 评分 为 -4。 一 旦 得 到 了 这 个 评估 ， 就 可 以 完全 抛 
弃 黑 方 的 这 个 动作 ， 跳 过 其 他 可 能 的 白 方 回应 动作 了 。 即 使 白 方 可 能 还 有 其 他 更 好 的 回应 ， 但 

我 们 已 经 知道 在 B 点 落 子 比 在 A 点 落 子 糟糕 
















































































在 这 个 示例 中 ， 为 了 说 明 a-B 勇 枝 的 工作 原理 ， 我 们 选取 了 特定 的 
评估 顺序 ， 但 在 实际 的 代码 中 ， 评 估 常 第 是 按照 落 子 的 棋盘 坐标 来 进行 
的 。 因 此 ，a-B 副 校 所 能 节省 的 时 间 取 决 于 找到 最 佳 分 支 的 时 间 。 如 果 
恰好 在 评估 早期 束 找 到 了 最 佳 分 支 ， 束 能 够 迅速 消除 其 他 分 文 。 但 在 最 
坏 的 情况 下 ， 即 最 后 一 步 才 找 到 最 佳 分 文 ，a-B 檀 枝 并 不 比 完全 深度 本 
校 搜索 更 快 。 





为 了 实现 前 枝 算法 ， 必 须 在 搜索 全 过 程 中 跟踪 记录 到 目前 为 止 双方 
的 最 佳 结果 。 传 统 上 ， 我 们 将 这 两 个 结果 值 称 为 a Calpha) 和 
BP (beta) ， 因 此 这 个 算法 叫 作 a-B 剪 校 。 在 代码 清单 4-10 所 示 的 实现 代 
码 中 ， 这 两 个 值 分 别称 为 best_black 和 best_white。 





代码 清单 4-10 ”检查 是 否 可 以 停止 对 一 个 分 支 的 评估 





def alpha_beta_result(game_state，max_depth， 
best black, best white, eval fn): 


if game_ state.next player == Player .white: 
# Update our benchmark for white 
if best so far > best white: <--- ”针对 白 方 更 新 己方 的 最 佳 结 











果 
best white = best so far 
outcome for black = -1 * best so far <--- 为 白 方 选择 一 个 动作 
， 这 需要 找到 能 够 排除 黑 方 的 上 一 个 动作 。 一 旦 发 现 了 某 个 能 够 超越 黑 方 最 佳 选择 的 动作 ， 
所 索 就 可 以 停止 了 
if outcome for _ black < best black: 
return best so far 



































我 们 可 以 扩展 深度 筋 权 的 实现 来 添加 orB 甬 校 的 功能 。 代 码 清单 4-10 
展示 了 新 增 的 关键 代码 。 这 段 代 码 处 理 白 方 视角 的 逻辑 ， 我 们 还 需要 一 
段 类 似 的 代码 来 处 理 黑 方 视角 的 逻辑 。 


首先 ， 检 查 是 否 需要 更 新 best_white 的 评分 。 接 下 来 ， 检 查 是 否 
可 以 停止 对 白 方 动作 的 评 佑 。 我 们 可 以 将 当前 得 分 与 在 任意 分 支 中 找到 
的 黑 方 最 佳 得 分 进行 比较 。 如 末日 方 可 以 将 黑 方 限制 在 更 低 的 分 数 ， 那 
么 黑 方 束 不 再 需要 考虑 这 个 分 文 了 ， 不 用 一 直 搜 索 到 绝对 的 最 佳 评 分 。 











代码 清单 4-11 展 示 了 a-B 剪 枝 的 一 个 完整 实现 。 





代码 清单 4-11 a-B 圾 枝 的 一 个 完整 实现 








def alpha _ beta result(game state, max_depth, 
best black, best white, eval fn): 











if game_ state.is over(): <--- 检查 棋局 是 否 已 经 终 盘 
if game_state.winner() == game_state.next player: 
return MAX_SCORE 
else: 


return MIN SCORE 




















if max_depth -= 8: ”。--- 已 达 到 最 大 搜索 深度 。 使 用 一 段 启发 式 规则 来 确定 
这 个 动作 序列 的 好 坏 























return eval fn(game_state) 


best so far = MIN SCORE 














for candidate move in game state.legal moves(): <--- ”循环 遍历 所 有 的 
全 灶 韦 作 
合法 动作 
next_state = game_ state.apply move(candidate move) <--- ”如 果 采 
取 这 个 动作 ， 模 局 会 变 成 什么 样 
opponent best result = alpha beta result( <--- ”从 这 个 棋局 开始 搜 


寻 对 手 所 能 得 到 的 最 佳 结果 
next_state，max_depth - 1， 
best black, best white, 



































eval_ fn) 
our result = -1 * opponent best result <--- 不论 对 方 想 要 什么 ， 我 
们 想 要 的 就 是 它 的 反面 
if our _ result > best so far: <--- ”查看 这 个 结果 是 否 比 之 前 得 到 的 最 
佳 结果 更 好 
best so far = our result 
if game_ state.next player == Player .white: 
if best so far > best white: <--- 为 白 方 更 新 最 佳 结 果 
best white = best so far 
outcome for black = -1 * best so far <--- 白 方 正在 选择 一 个 动 

















作 ， 这 个 动作 只 要 足以 排除 ， 黑 方 的 前 一 个 动作 即 可 
if outcome for _ black < best black: 
return best so far 
elif game_ state.next player == Player.black: 








if best so far > best black: <--- 为 黑 方 更 新 最 佳 结 果 
best black = best so far 
outcome for white = -1 * best so far <--- 黑 方正 在 选择 一 个 动 








作 ， 这 个 动作 只 需 足 以 排除 白 方 的 前 一 个 动作 即 可 
if outcome for _ white < best white: 
return best so far 








return best so far 








4.5 ”使 用 蒙特 卡 洛 树 搜索 评估 游戏 状态 


在 a-B 驴 校 算法 中 ， 我 们 用 棋局 评估 函数 来 减少 需要 考虑 的 棋局 数 
量 。 但 在 于 棋 中 ， 棋 局 评估 是 非常 非常 困难 的 事情 : 如 循 基于 提 子 数量 
的 简单 局 发 式 规则 无 法 胜 过 大 多 数 棋 手 。 壹 特 卡 党 树 搜 索 (MCTS) 为 
我 们 提供 了 一 种 方法 ， 可 以 在 不 依赖 任何 围棋 策略 知识 的 前 提 下 评估 游 





戏 状 态 。MCTS 算 法 不 需要 利用 游戏 特有 的 启发 式 规则 ， 而 是 通过 模拟 
随机 棋局 来 评估 棋局 的 好 坏 。 我 们 把 模拟 进行 的 每 一 个 随机 棋局 称 为 一 
次 推演 (rollout) 或 拟 盘 〈playout) 。 在 本 书 中 ， 我 们 采用 术语 推 沉 。 








蒙特 卡 洛 树 搜索 是 蒙特 卡 洛 算法 族 的 一 员 ， 它 们 可 以 利用 随机 性 来 
分 析 极 其 复杂 的 情况 。 算 法 名 称 源 自 它 的 随机 特性 。 


通过 选择 随机 动作 来 建立 一 个 展 好 的 策略 乍 看 似乎 是 不 可 能 的 。 如 
打 洲 戏 AI 完全 随机 地 选择 动作 ， 当 然 会 非常 弱 。 但 是 如 果 让 两 个 随机 Ai 
相互 对 抗 ， 它 们 的 对 手 也 会 和 目 己 一 样 软弱 无 力 。 如 宁 这 时 候 发现 黑 方 
持续 比 日 方 说 得 多 ， 那 一 定 是 因为 黑 方 从 一 开始 就 掌握 了 茶 种 优势 。 因 
此 ， 要 评估 东 个 棋局 状态 ， 我 们 可 以 从 那里 开始 进行 多 次 随机 对 研 推 
演 ， 来 弄 清楚 这 个 棋局 是 否 对 某 一 方 有 利 。 而 且 我 们 也 不 需要 理解 为 何 
这 个 棋局 是 有 利 的 。 











当然 ， 也 有 可 能 遇 到 不 平衡 的 结果 。 如 果 模 拟 10 次 随机 对 弈 ， 白 方 
赢 了 7 次 ， 我 们 是 否 有 信心 说 白 方 有 优势 呢 ? 实际 上 并 不 能 : 白 方 只 比 
随机 分 布 多 赢 两 场 而 已 。 如 果 黑 白 双 方 势均力敌 ， 那 么 白 方 大 约 有 309% 
的 概率 得 到 10 局 7 胜 的 结果 。 但 是 如 果 白 方 在 100 次 随机 对 弈 中 获胜 了 70 
次 ， 我 们 就 几乎 可 以 确定 初始 棋局 对 白 方 有 利 了 。 因 此 ， 关 键 点 在 于 进 
行 更 多 次 数 的 推演 ， 让 估计 变 得 更 准确 。 








MCTS 算 法 的 每 一 轮 计算 都 包含 3 个 步 又 。 


(1) 将 新 的 棋局 添加 到 MCTS 树 中 。 


(2) 从 这 个 棋局 开始 模拟 随机 对 而 。 


(3) 根据 随机 对 弈 的 结 末 更 新 树 节 点 的 统计 数据 。 








在 允许 的 时 间 内 ， 可 以 多 次 重复 这 个 过 程 。 最 后 搜索 树 项 部 的 统计 
数据 会 告诉 我 们 应 当选 择 哪 一 个 动作 。 


让 我 们 试 着 逐步 推演 MCTS 算 法 的 一 轮 计算 。 图 4-13 显 示 了 一 标 
MCTS 树 。 算 法 进行 到 这 里 的 时 候 ， 己 经 完成 了 许多 次 推演 ， 并 构建 了 
部 分 搜索 树 。 每 个 节点 都 记录 了 该 市 反之 后 任意 棋局 开始 的 胜 负 计数 。 
也 就 是 说 市 点 计数 包括 其 所 有 子 市 扩 的 总 和 。 《正常 情况 下 ， 统 计 树 会 
比 图 中 有 更 多 的 节点 ， 但 为 了 市 省 页 面 空间 ， 图 中 省 略 了 许多 节点 。) 


我 们 正 试图 从 这 个 棋 


局 开始 为 黑 方 选择 下 
一 个 动作 。 一 一 、 


@@O@ TT 
co 二 二 | 每 个 节点 的 统计 信息 是 区 部 加 了 


其 节点 的 总 和 。 
黑 广 获胜 33 次 < ”其 所 有 子 节点 的 总 和 黑 方 获胜 6 次 
白 方 获胜 11 次 白 方 获胜 20 次 


/AN /A\ 
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黑 方 获胜 13 次 黑 方 获胜 9 次 黑 方 获胜 11 次 黑 方 获胜 3 次 黑 方 获胜 3 次 
白 方 获胜 7 次 白 方 获胜 1 次 白 方 获胜 3 次 白 方 获 胜 12 次 白 方 获胜 8 次 
从 这 个 节点 开始 的 所 有 推演 


《随机 对 弈 ) 的 结果 统计 。 


图 4-13 MCTS 树 。 树 的 顶部 代表 当前 的 棋局 ， 我 们 正 试图 为 黑 方 选择 下 一 步 动 作 。 在 图 中 的 状 
态 里 ， 算 法 已 经 为 各 种 不 同 的 可 能 棋局 进行 了 70 次 随机 推演 。 每 个 节点 都 会 跟踪 记录 从 它 的 任 
何 子 节 点 开始 的 所 有 推演 的 统计 信息 












































每 一 轮 开始 时 ， 我 们 将 在 搜索 树 中 添加 一 个 新 的 棋局 。 首 先 ， 在 树 
的 底部 选择 一 个 节点 〈 即 一 个 叶 市 上 来 添加 新 的 子 市 点。 图 中 这 村 树 
有 5 个 时 节 氮 。 





为 了 获得 最 佳 效 来 ， 我 们 需要 米 取 适当 的 全 上 略 来 选取 叶 市 点，4.5.2 
将 介绍 一 个 民 好 的 选取 集 略 。 本 例 中 为 简便 起 见 ， 我 们 假设 每 次 部 选 
择 最 元 边 的 分 文 。 从 这 个 节点 开始 随机 选择 下 一 步 动 作 ， 计 算 新 的 棋 
局 ， 并 将 计算 出 的 新 节点 添加 到 搜索 树 中 。 图 4-14 展 示 了 这 个 过 程 完 成 
之 后 搜索 树 的 样子 。 

















选择 这 个 节点 来 添加 
一 个 新 的 棋局 。 到 


. 4 


黑 方 获胜 33 次 黑 方 获胜 6 次 
白 方 获胜 11 次 白 方 获 胜 20 次 


/、 
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黑 方 获胜 13 次 黑 方 获胜 9 次 黑 方 获胜 11 次 黑 方 获胜 3 次 黑 方 获 胜 3 次 
白 方 获胜 7 次 白 方 获胜 1 次 白 方 获胜 3 次 白 方 获胜 12 次 白 方 获胜 8 次 
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将 新 节点 加 入 搜索 树 之 后 ， 需 要 从 这 里 开始 模拟 一 次 随机 推演 。 


图 4-14 ”将 新 节点 添加 到 MCTS 树 。 在 本 例 中 ， 选 择 最 左边 的 分 支 作 为 插入 新 节点 的 位 置 。 然 
后 ， 可 以 从 这 个 棋局 开始 ， 随 机 选择 下 一 个 动作 ， 并 在 树 中 创建 新 节点 











这 个 新 节点 就 是 随机 对 奔 的 起 点 。 我 们 从 这 里 开始 继续 模拟 对 弈 棋 
局 ， 每 一 回合 随机 选择 一 个 合法 的 动作 即 可 ， 直 到 棋局 终 盘 。 然 后 进行 
终 盘 结算 ， 并 得 到 获胜 方 。 本 例假 设 获胜 方 是 白 方 。 将 这 次 推演 的 结果 
记录 在 新 节点 中 ， 并 回 济 它 的 所 有 祖先 节点 ， 将 新 的 推演 结果 添加 到 途 
经 的 每 个 节点 的 统计 信息 中 。 图 4-15 展 示 了 这 个 步骤 完成 后 树 的 样子 。 




















使 用 新 推演 的 结果 对 新 节点 
的 所 有 祖先 节点 进行 更 新 。 国 


黑 方 获胜 6 次 


黑 方 获胜 33 次 
白 方 获胜 20 次 


人 /\ _/\ 





































































































@ fF De@ 十 
0 9 Se ? 
To 3 次 | 黑 方 获胜 11 次 黑 方 获 胜 3 次 黑 方 获 胜 3 次 
白 方 获胜 8 次 自 方 获胜 1 次 白 方 获胜 3 次 白 方 获胜 12 次 白 方 获胜 8 次 











2 


黑 方 获胜 0 次 。 -本 次 推演 的 结果 是 白 方 获胜 。 
白 方 获胜 1 次 






































图 4-15 “完成 一 次 新 的 推演 之 后 ， 需 要 更 新 MCTS 树 。 在 本 例 中 ， 推 演 的 结果 是 白 方 获 胜 。 将 这 


ee 








上 述 的 整个 过 程 只 是 MCTS 算 法 的 一 轮 推演 。 每 重复 一 ee 
RE 树 顶 病 的 估计 结果 也 会 变 得 更 加 准确 。 

， 我 们 可 以 在 固定 数量 的 轮 次 之 后 或 者 经 过 一 段 固定 的 时 间 之 后 停止 
这 时 候选 择 获 胜率 最 高 的 那个 动作 即 可 。 





4.5.1 在 Python 中 实现 蒙特 卡 洛 树 搜 索 


现在 我 们 已 经 对 MCTS 算 法 有 所 了 解 ， 接 下 来 可 以 转 到 实现 细 市 
了 。 首 先 要 设计 一 个 数据 结构 来 表示 MCTS 树 ， 然 后 编写 一 个 函数 来 执 





行 MCTS 树 的 推演 过 程 。 





如 代码 清单 4-12 所 示 ， 首 先 定义 一 个 新 类 MCTSNode， 以 表示 搜索 
树 中 的 任 一 节点 。 每 个 MCTSNode 节 点 都 包含 下 列 几 个 属性 。 


。 game_state 一 一 搜索 树 当 前 节点 的 游戏 状态 ( 即 棋局 以 及 下 一 回 
合 执 子 方 ) 。 

。 parent 一 一 当前 MCTSNode 市 点 的 父 节点 。 要 表示 树 的 根 节 点 ， 可 
以 把 它 的 parent 值 设置 为 None。 

。 move 一 一 触发 当前 棋局 的 上 一 步 动作 。 

。 children 一 一 当前 节点 所 有 子 节 点 的 列表 。 

。win_counts 和 num_rollouts 一 一 从 当前 节点 开始 的 所 有 推演 的 统 
Th 

。 unvisited_moves 一 一 从 当前 棋局 开始 ， 所 有 可 能 的 合法 动作 列 
表 。 这 个 列表 只 记录 那些 还 没 成 为 树 中 某 一 节点 的 动作 。 每 当 问 搜 
索 树 添加 一 个 新 节点 时 ， 我 们 都 会 从 unvisited_moves 中 提取 出 
一 个 动作 ， 为 它 生 成 一 个 新 的 MCTSNode 实 例 ， 并 添加 到 children 
列表 中 。 




















代码 清单 4-12 ”表示 MCTS 树 的 数据 结构 





class MCTSNode(object): 
def _init (self, game_ state, parent=None, move=None): 
self.game state = game_ state 
self.parent = parent 
self.move = move 
self.win counts = { 


Player.black: 6， 
Player.white: 6， 
} 
self.num rollouts = 0 
self.children = [|] 
self.unvisited moves = game_ state.legal moves() 





修改 MCTSNode 的 方法 有 两 个 : 一 个 负责 同 树 中 添加 新 的 子 节点 ， 
另 一 个 负责 更 新 它 的 推演 统计 信息 。 代 码 清单 4-13 展 示 了 这 两 个 方法 。 














代码 清单 4-13 ”更 新 MCTS 树 某 个 节点 的 两 个 方法 














def add random child(self): 
index = random.randint(6, len(self.unvisited moves) - 1) 
new_ move = self.unvisited moves.pop(index) 
new_ game_state = self.game_ state.apply_move(new move) 
new_node = MCTSNode(new game_ state, self, new_ move) 


self.children.append(new_node) 
return new node 


record win(self, winner): 
self.win counts[winner] += 1 
self.num rollouts += 1 








最 后 ， 还 可 以 添加 3 个 辅助 方法 ， 用 于 访问 树 节 点 的 有 用 属性 。 





e。 can add chil 伟 测 当前 棋局 中 是 否 还 有 合法 动作 尚未 添加 到 
树 中 。 
e。 is termina 


能 继续 进行 搜索 了 。 
。winning_frac 一 一 返回 某 一 方 在 推演 中 获胜 的 比率 。 





今 测 是 否 达 到 了 终 盘 。 如 果 已 经 达到 终 盘 ， 束 不 


这 几 个 函数 的 实现 如 代码 清单 4-14 所 示 。 














代码 清单 414 用 于 访问 树 节 点 有 用 属性 的 几 个 辅助 方法 























def can add child(self): 
return len(self.unvisited moves) > 6 


def is terminal(self): 
return self.game_ state.is over() 


def winning frac(self, player): 
return float(self.win counts[player]) / float(self.num rollouts) 








定义 好 搜索 树 的 数据 结构 后 ， 就 可 以 痢 手 实现 MCTS 算 法 了 。 首 移 
用 当前 的 游戏 状态 作为 根 节 点 来 创建 一 柠 新 搜索 树 ， 接 着 反复 生成 新 的 
推演 。 在 本 市 的 实现 中 ， 每 一 回合 执行 固定 轮 数 的 推演 。 在 其 他 实现 
中 ， 也 有 按照 固定 运行 时 长 的 。 








每 一 轮 推演 开始 ， 先 沿 着 搜索 树 往 下 亿 历 ， 直 人 至 找到 一 个 可 以 添加 
子 节点 的 节点 《“ 即 任何 还 留 有 尚未 添加 到 树 中 的 合法 动作 的 棋局 ) 为 
止 。select_move 负 责 挑选 可 供 继续 搜索 的 最 佳 分 文 ， 我 们 先 乔 时 忽略 
它 的 具体 实现 ， 将 在 4.5.2 节 中 详细 介绍 。 


找到 合适 的 节点 后 ， 调 用 add_random_child 来 选择 一 个 后 续 动 
作 ， 并 将 它 添加 到 搜索 树 中 。 此 时 node 是 一 个 新 创建 的 MCTSNode， 它 
还 没有 包含 任何 推演 。 


现在 我 们 可 以 从 这 个 节点 调用 simulate_random_game 并 开始 推演 
了 。simulate_random_game 的 实现 与 第 3 章 中 介绍 的 bot_v_bot 示 例 
相同 oO 


最 后 需要 为 新 创建 的 市 太 以 及 它 所 有 的 祖先 节 扣 更 新 获胜 统计 信 


程 的 实现 如 代码 清单 4-15 所 示 。 


[ 亚 
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代码 清单 4-15 MCTS 算 法 











class MCTSAgent(agent.Agent ) : 
def select_move(self，game_state) : 
root = MCTSNode(game_state) 


for i in range(self.num rounds): 
node = root 
while (not node.can add child()) and (not node.is terminal()): 


node = self.select child(node) 


UD 


if node.can add child(): <--- ”将 新 的 子 节点 添加 到 树 
node = node.add random child() 








winner = self.simulate random game(node.game state) <e--- 


从 这 个 节点 开始 ， 模 拟 一 局 随机 推演 





while node is not None: <--- ”将 推演 得 出 的 得 分 沿 着 树 分 支 问 上 














推送 





node.record win(winner) 
node = node.parent 





完成 所 有 的 推演 之 后 ， 选 择 下 一 步 动 作 。 这 时 需要 避 历 搜索 树 顶 站 
的 所 有 分 文 ， 选 择 获 胜率 最 高 的 那个 分 文 即 可 。 代 码 清单 4-16 展 示 了 这 
个 功能 的 实现 。 








代码 清单 4-16 “完成 MCTS 推 演 后 ， 选 择 一 个 动作 








class MCTSAgent: 
def select move(self, game_state): 


best move = None 
best pct = -1.6 


for child in root.children: 


child pct = child.winning pct(game_ state.next player) 
if child pct > best pct: 
best pct = child pct 
best move = child.move 
return best move 





4.5.2 ”如 何 选 择 继续 探索 的 分 支 


导 一 回合 中 游戏 AI 能 够 利用 的 时 间 是 有 限 的 ， 这 意味 着 能 够 执行 的 
推演 次 数 也 是 有 限 的 。 每 多 一 次 推 江 ， 都 能 提高 一 个 可 能 动作 的 评估 水 
平 。 我 们 可 以 把 推演 看 作 杂 种 总 量 有 限 的 资源 如果 在 动作 A 上 多 消耗 








一 次 推演 ， 那 么 在 动作 B 上 就 得 少 消耗 一 次 。 我 们 需要 一 个 全 略 来 决定 
如 何 分 配 有 限 的 预算 。 标 准 的 策略 称 为 搜索 树 置 信 区 间 上 界 公式 
(upper confidence bound for trees formula， 简 称 为 UCT 公 式 ) 。UCT 公 
式 可 以 在 下 面 介绍 的 两 个 相互 冲突 的 目标 之 间 取 得 一 定 平衡 。 





第 一 个 目标 是 花费 更 多 时 间 去 检查 最 佳 的 动作 。 我 们 把 这 个 目标 叫 
作 深 入 挖 据 (exploitation〉， 即 想 要 对 至 今 为 止 搜寻 到 的 比较 理想 的 目 
标 进行 深入 的 挖掘 。 这 么 做 需要 花费 更 多 的 时 间 来 对 那些 估计 获胜 率 最 
高 的 动作 进行 推 澳 。 当 然 ， 其 中 某 些 动作 可 能 只 是 由 于 倡 然 因素 才 有 较 
蜗 的 获胜 京 。 但 随 着 你 对 这 些 分 支 进行 更 多 的 推演 ， 你 的 估算 就 会 更 加 
准确 。 误 报 率 将 会 随 着 推演 数量 的 增多 而 下 降 。 








另 一 方面 ， 如 果 茶 个 节点 只 被 访问 了 几 次 ， 那 么 得 到 的 评估 可 能 
很 大 的 偏差。 即使 纯 属 偶然 ， 也 可 能 过 到 一 个 实际 很 好 的 动作 得 出 估计 
获胜 率 很 低 的 情况 。 这 时 候 ， 如 宋 能 再 多 推 萄 几 次 ， 就 有 可 能 发 掘 出 它 
的 真实 价值 。 因 此 ， 第 二 个 目标 束 是 花费 更 多 时 间 来 提高 那些 个 访问 次 
数 最 少 的 分 支 的 评估 准确 率 。 这 个 目标 我 们 称 为 广泛 探 款 


(exploration) 。 








图 4-16 将 偏向 于 深入 挖掘 的 搜索 树 与 偏 回 于 广泛 探索 的 搜索 树 进行 
比较 。 深 入 挖掘 和 广泛 探索 之 间 的 权衡 ， 是 很 多 试 错 型 算法 的 共同 特 
征 。 在 本 书后 面 的 强化 学 习 中 ， 它 会 再 次 出 现 。 








偏向 于 深入 挖掘 。 
对 少数 几 个 分 支 进行 深入 挖 握 





















































这 个 序列 搜索 得 非常 深入 ， 因 此 
和 对 评估 的 准确 性 相当 有 信心 。 


偏向 于 广泛 探索 。 
对 很 多 分 支 都 进行 相对 较 浅 的 探索 





























| < 一 一 一 评估 深度 较 浅 ， 因 此 可 能 
| 没 那 么 准确 。 


























很 多 动作 都 会 得 到 评估 。 


图 4-16 深入 挖掘 和 广泛 探索 之 间 的 权衡 。 图 里 的 两 棵 游戏 树 都 假设 已 经 访问 过 7 个 棋局 状态 。 
图 中 上 侧 的 搜索 树 偏 向 于 深入 挖掘 : 对 于 最 有 希望 的 动作 分 支 ， 搜 索 树 探索 得 更 深 。 而 图 中 下 








侧 的 搜索 树 则 偏向 于 广泛 探索 ， 它 会 尝试 更 多 的 动作 ， 但 每 个 动作 的 搜 


对 于 正在 处 理 的 每 个 节 














索 深 度 则 相对 较 浅 


点 ， 可 以 计算 获胜 百分率 w， 作 为 深入 挖掘 








的 目标 。 而 要 表达 广泛 探索 的 目标 ， 可 以 用 下 面 的 公式 来 计算 : 


| log NV 
Y 7 
其 中 ，N 代 表 推 澳 的 总 数 ，n 代 表 从 当前 节 氮 开始 的 所 有 推演 数 。 这 
个 特定 的 公式 有 其 理论 基础 ， 这 里 先 不 详 述 。 对 我 们 而 言 ， 只 要 注意 被 
访问 次 数 最 少 的 节点 ， 它 的 值 最 大 就 可 以 了 。 





把 这 两 个 目标 组 合 起 来 ， 残 得 到 了 了 UCT 公式: 


/lo gN 


Ww 十 CA/ 
| n 











在 这 个 公式 里 ， 参 数 c 表 示 在 权衡 深入 挖掘 和 广泛 探索 时 想 要 的 权 
重 。UCT 公 式 为 每 个 市 皮 提 供 一 个 分 数 ， 而 共有 最 高 UCT 分 数 的 节 扣 ， 
束 可 以 作为 下 一 次 推演 的 开端 。 


如 果 使 用 较 大 的 c 值 ， 就 会 花费 更 多 时 间 去 访问 那些 被 访问 次 数 最 
少 的 节点 ; 而 使 用 较 小 的 c 值 ， 就 会 花费 更 多 时 间 来 对 最 有 和 硕 望 的 节点 
进行 更 准确 的 评估 。 合 适 的 c 值 往往 得 通过 反复 试 错 才能 找到 。 我 们 建 
议 先 取 1.5 开 始 进行 试验 。 参 数 c 有 时 被 称 为 温度 (temperature) 。 当 温 
度 “ 更 高 "的 时 候 ， 搜 索 将 更 加 发 散 ， 而 当 温 度 “ 更 低 ” 的 时 候 ， 搜 索 将 更 
加 集中 。 














代码 清单 417 展 示 了 这 个 策略 的 实现 。 在 确定 好 要 使 用 的 度量 标准 
之 后 ， 选 择 子 市 把 的 任务 就 变 得 很 简单 了 ， 只 需 计算 每 个 三 点 的 UCT 公 
式 并 选择 具有 最 大 值 的 节点 即 可 。 与 极 小 化 极 大 搜索 相同 ， 每 一 回合 都 








需要 切换 视角 。 计 算 获 胜率 时 需要 以 下 一 回合 行动 方 的 视角 ， 因 此 沿 着 
搜索 树 探 索 的 时 候 ， 视 角 会 在 黑白 双方 之 间 交 蔡 变 换 。 











代码 清单 4-17 ”使 用 UCT 公 式 选 择 要 进行 探索 的 分 支 











def uct score(parent rollouts, child rollouts, win pct, temperature): 
exploration = math.sqrt(math.log(parent rollouts) / child rollouts) 
return win pct + temperature * exploration 


class MCTSAgent: 


def select child(self, node): 
total rollouts = sum(child.num rollouts for child in node.children 


best _ score -1 
best child = None 
for child in node.children: 
score = uct scorel 
total rollouts, 
child.num rollouts, 
child.winning pct(node.game_ state.next player), 
self.temperature) 
if score > best score: 
best_ score uct_score 
best child = child 
return best child 





4.5.3 ”将 蒙特 卡 洛 树 搜 索 应 用 于 围棋 


在 4.5.1 节 中 ， 我 们 实现 了 MCTS 算 法 的 一 般 形 式 。 单 纯 的 MCTS 实 
现 可 以 达到 围棋 业余 1 段 水 平 ， 相 当 于 业余 棋 手 中 的 高 手 。 而 将 MCTS 
与 其 他 技术 相 结 合 ， 则 可 以 产生 更 加 强大 的 围棋 机 器 人 。 如 今 许多 围棋 
AI 都 同时 采用 了 MCTS 和 深度 学 习 。 如 果 想 要 提高 MCTS 机 器 人 的 竞技 
水 平 ， 可 以 参考 本 节 介 绍 的 几 个 实践 细节 。 





1. 代码 越 快 ， 机 器 人 残 越 强 


在 全 尺寸 (19x19〉 围棋 棋盘 上 使 用 MCTS， 想 要 达到 基本 可 用 的 
水 平 ， 需 要 每 一 回合 进行 大 约 10 000 次 推演 。 而 本 章 所 介绍 的 实现 速度 
还 不 够 快 ， 选 出 一 步 动 作 需 要 等 好 几 分 钟 。 要 想 在 合理 的 时 间 内 完成 如 
此 多 的 推演 ， 就 需要 对 代码 实现 进行 优化 。 当 然 ， 在 较 小 的 棋盘 上 ， 即 
使 用 这 个 参考 实现 ， 也 能 得 到 一 个 有 趣 的 对 手 。 





在 其 他 条 件 相 同 的 前 所 下 ， 推 演 越 多 决策 就 越 好 。 要 想 让 机 器 人 变 
得 更 强 ， 加 快 代码 运行 速度 ， 在 相同 的 时 间 内 挤 进 更 多 的 推演 ， 总 是 可 
行 的 策略 。 而 且 我 们 不 仅 可 以 使 用 MCTS 的 特定 逻辑 ， 还 可 以 对 其 他 代 
码 部 分 进行 优化 。 例 如 ， 一 次 推 淘 中 需要 调用 数目 次 计算 吃 子 的 代码 。 
所 有 的 基本 游戏 逻辑 都 是 极 佳 的 优化 目标 。 





2. 推演 宋 略 越 好 ， 评 佑 就 越 准 确 


在 随机 推演 时 选择 动作 的 算法 称 为 推演 宋 略 (rollout policy) 。 推 
演 越 贴近 现实 ， 评 估 就 越 准确 。 在 第 3 章 中 ， 我 们 实现 了 一 个 下 围棋 的 
随机 机 器 人 RandomAgent; 在 本 章 中 我 们 使 用 RandomAgent 作 为 推演 策 
略 。 但 是 ，RandomAgent 并 不 是 完全 随机 的 ， 它 也 用 到 了 少量 围棋 知 
识 。 例 如 ， 在 填 满 棋盘 之 前 它 不 会 跳 过 回合 或 者 认输 。 另 外 ， 我 们 也 编 
入 了 不 能 在 已 方 的 眼 位 上 沙子 的 逻辑 ， 以 避免 在 终 盘 阶段 吃 挥 自己 的 棋 
子 。 如 果 没 有 这 些 逻 辑 ， 推 沽 的 结果 就 没 那 么 准确 了 。 





攻 些 MCTS 实 现 则 更 进一步 ， 在 推演 集 略 中 实现 了 更 多 围棋 专属 远 


辑 。 我 们 有 时 把 包含 游戏 专属 逻辑 的 推演 称 为 芷 推演 (heavy 
rollout) ， 相 对 地 ， 接 近 纯 随机 的 推演 则 被 称 为 轻 推 党 (light 


rollout) 。 


实现 重 推演 的 方法 之 一 是 创建 一 个 围棋 常见 定式 的 列表 ， 并 包含 已 
知 定式 的 解法 。 棋 盘 上 任何 位 置 与 已 知 定式 匹配 时 ， 都 可 以 查询 已 知 的 
解法 ， 从 而 提高 它 被 选中 的 概率 。 当 然 ， 我 们 不 能 总 是 严格 章 循 已 知 的 
解法 ， 人 否则 会 完全 丢 邱 随 机 性 ， 而 随机 性 是 MCTS 算 法 中 的 关键 元 素 之 


图 4-17 展 示 了 一 个 例子 。 这 是 一 个 3x3 的 局 部 定式 ， 其 中 黑子 有 可 
能 在 下 一 回合 被 日 方 吃 掉 。 黑 子 可 以 长 出 来 暂时 挽救 危局 ， 但 这 并 不 总 
是 最 好 的 回应 ， 甚 至 算 不 上 是 一 步 好 棋 。 不 过 与 在 棋盘 中 随机 取 一 个 点 
沙子 相 比 ， 它 还 是 要 好 得 多 。 








定式 对 应 动作 
在 棋盘 中 寻找 这 任何 发 现 这 个 棋 形 的 
种 定式 的 棋 形 。 地 方 ， 都 可 以 考虑 采 
用 这 步 对 应 动作 。 





图 4-17 局 部 定式 的 一 个 例子 。 当 我 们 遇 到 左 侧 的 棋 形 时 ， 应 当 考 虑 右 侧 的 对 应 动作 。 遵 循 这 
类 定式 的 推演 策略 并 不 会 特别 强大 ， 但 至 少 会 比 完全 随机 选择 的 动作 强 得 多 











想 要 建立 一 套 恨 好 的 定式 列表 ， 需 要 了 解围 棋 策 略 的 相关 知识 。 如 
果 读 者 对 其 他 可 以 应 用 到 重 推演 策略 的 定式 感 兴趣 ， 我 们 建议 阅读 
Fuego 或 Pachi 这 两 个 开源 MCTS 围 棋 引 擎 的 源 代码 。 





最 后 ， 实 现 重 推演 集 略 时 要 格外 小 心 ， 如 果 推 演 逻 辑 的 计算 速度 很 
慢 ， 就 无 法 执行 足够 多 的 推演 了 。 这 可 能 会 抵消 采用 更 复杂 的 策略 所 带 
来 的 优势 。 


3. 礼貌 的 机 器 人 应 当 懂 得 何 时 认输 


制作 游戏 AI 不 仅 是 为 了 开发 最 佳 的 算法 ， 还 需要 为 人 类 对 手 创造 有 
趣 的 游戏 体验 。 对 棋 手 来 说 ， 乐 趣 的 一 部 分 来 自 获胜 的 满足 感 。 但 本 书 
实现 的 第 一 个 围棋 机 器 人 RandomAgent， 是 一 个 令 人 抓 狂 的 对 手 。 即 使 
对 方 已 经 遥遥 领先 ， 随 机 机 器 人 也 会 坚持 继续 落 子 ， 直 到 整个 棋盘 都 填 
满 。 当 然 棋 手 也 可 以 直接 退出 棋局 ， 心 里 认为 自己 获胜 ， 但 这 样 做 总 是 
感觉 不 够 “竞技 ”。 而 如 果 机 器 人 能 够 优雅 地 认输 ， 那 就 会 是 一 次 更 好 的 
体验 了 。 


我 们 可 以 在 基本 的 MCTS 实 现 之 上 轻松 地 添加 更 人 性 化 的 认输 迎 
辑 。 在 选择 动作 的 过 程 中 ，MCTS 算 法 会 计算 出 估计 获 胜率 。 每 一 回合 
我 们 都 可 以 通过 比较 这 些 获 胜率 来 决定 要 挑选 的 落 子 动作 ， 但 我 们 也 可 
以 在 棋局 的 不 同 阶段 比较 获胜 率 。 如 果 获 胜率 一 直 在 下 降 ， 就 说 明 胜 势 
正在 倾 问 于 对 方 。 如 果 估 计 获 胜率 的 最 高 值 降 到 一 定 程度 ， 如 10%， 就 
可 以 让 机 右 人 认输 了 。 




















4.6 小 结 


。 树 搜索 算法 评估 许多 可 能 的 决策 序列 来 找 出 最 佳 决 策 。 树 搜索 在 游 
戏 和 通用 优化 问题 中 都 很 常见 。 





[1] 


极 小 化 极 大 树 搜索 是 一 种 适用 于 游戏 的 树 搜索 算法 。 在 极 小 化 极 大 
搜索 中 ， 评 估 需 要 在 具有 相反 目标 的 两 个 玩家 之 间 交 蔡 进 行 。 
完整 的 极 小 化 极 大 树 搜索 仅 适 用 于 非常 简单 的 游戏 (如 井 字 棋 〉。 
要 想 应 用 到 更 复杂 的 游戏 (例如 国际 象棋 或 围棋 ) ， 需 要 缩减 搜索 
树 的 尺寸 。 

棋局 评估 函数 用 于 在 给 定 的 棋局 中 估计 哪 一 方 更 有 可 能 获胜 。 有 了 
良好 的 棋局 评估 功能 ， 就 可 以 不 用 搜索 到 游戏 结束 就 做 出 决定 了 。 
这 种 策略 称 为 深度 前 

o-B 剪 枝 可 以 减少 每 一 回合 需要 考虑 的 动作 数量 ， 适 用 于 国际 象棋 
之 类 的 复杂 游戏 。ocB 剪 枝 的 理念 很 直观 : 在 评估 可 能 的 动作 时 ， 
如 果 发 现 对 手 有 一 个 强力 的 回应 ， 就 可 以 立即 放弃 这 一 步 动作 。 
当 找 不 到 良好 的 棋局 评估 规则 时 ， 可 以 使 用 蒙特 卡 洛 树 搜 索 。 这 个 
算法 会 模拟 特定 棋局 之 后 的 随机 推演 ， 并 记录 哪 一 方 获胜 的 频率 更 
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“长 "是 围棋 术语 ， 即 沿 着 线 延 伸 出 去 。 一 一 译 者 注 


第 5 草 ”神经 网 络 入 门 


本 章 主要 内 容 


。 介绍 人 工 神 经 网 络 的 基础 知识 。 


指导 神经 网 络 学 习 如 何 识别 手写 数字 。 


组 合 多 个 层 来 创建 神经 网 络 。 


理解 神经 网 络 从 数据 中 学 习 的 原理 。 


从 零 开始 实现 一 个 简单 的 神经 网 络 。 


本 章 介 绍 人 工 神经 网 络 (Artificial Neural Network，ANN) 的 核心 
概念 。 这 类 算法 对 现代 深度 学 习 至 关 重 要 。 人 工 神经 网 络 的 历史 可 以 追 
溯 到 20 世 纪 40 年 代 早 期 。 历 经 数 十 年 ， 它 在 许多 领域 的 应 用 都 取得 了 巨 
大 成 功 ， 但 其 基本 思想 都 保留 了 下 来 。 


人 工 神经 网 络 的 核心 理念 ， 是 从 神经 科学 中 汲取 灵感 ， 创 造 出 一 
与 人 们 猜想 的 大 脑 工 作 方式 类 似 的 算法 。 其 中 特别 地 ， 我 们 采用 神经 元 
Cneuron) 的 概念 来 作为 人 工 神经 网 络 的 基础 构件 。 多 个 神经 元 组 合 为 
不 同 的 层 〈layer) ， 不 同 层 之 间 以 特定 的 方式 彼此 连接 (connect) ， 从 
而 组 织 成 一 个 网 络 (network) 。 给 定 输入 数据 ， 神 经 元 可 以 通过 各 层 
之 间 的 连接 逐 层 传输 信息 。 如 果 信 号 足够 强 ， 我 们 说 神经 元 会 被 激活 





Gactivate) 。 这 样 数据 通过 网 络 层 层 传播 ， 到 达 最 后 一 层 ， 即 输出 层 ， 
并 得 到 预测 〈prediction) 结果 。 然 后 我 们 可 以 把 这 些 预测 与 期 望 输出 
(expected output〉 进 行 比较 ， 以 计算 预测 的 误 和 到 (error) ， 神 经 网 络 
可 以 利用 它 来 进行 学 习 ， 并 改进 未 来 的 预测 。 





虽然 由 大 脑 结构 局 发 的 类 比 很 有 用 ， 但 我 们 不 想 在 这 里 过 度 强 调 
它 。 我 们 确实 对 大 脑 的 视觉 皮层 知之 甚 多 ， 但 这 种 类 比 有 时 会 产生 误 
导 ， 其 至 引发 错误 的 理解 。 我 们 认为 最 好 将 人 工 神 经 网 络 看 作 是 试图 揭 
示 生 物体 的 学 习 机 制 的 指导 原则 ， 就 像 飞机 利用 了 空气 动力 学 原理 ， 
但 并 不 会 完全 复制 乌 类 的 功能 。 





为 了 使 本 章 内 容 更 为 具体 ， 我 们 提供 了 一 个 从 零 开 始 实 现 的 基本 神 
经 网 络 。 我 们 将 应 用 这 个 神经 网 络 来 解决 一 个 光学 字符 识别 (Optical 
Character Recognition，OCR) 领域 的 问题 ， 即 让 计算 机 预测 图 像 中 的 手 
写 数字 是 哪 一 个 。 








在 我 们 的 OCR 数据 集中 ， 每 个 图 像 都 由 像素 网 格 组 成 ， 因 此 必须 分 
析 像 素 之 间 的 空间 关系 才能 确定 它 所 代表 的 数字 。 围 棋 等 众多 棋 类 游戏 
也 是 在 网 格 上 下 棋 的 ， 也 必须 考虑 棋盘 上 的 空间 关系 才能 选择 民 好 的 动 
作 。 因 此 我 们 可 能 会 期 竺 OCR 的 机 器 学 习 技术 也 能 够 应 用 到 围棋 之 类 的 
游戏 中 。 事 实证 明 ， 它 们 确实 有 效 。 第 6 章 至 第 8 章 将 介绍 如 何 把 这 些 方 
法 应 用 于 围棋 游戏 。 








本 章 会 尽量 少 涉及 数学 内 容 。 如 果 读 者 对 线性 代数 、 微 积分 和 概率 
论 的 基础 知识 不 够 熟悉 ， 或 者 想 要 一 些 简 短 实用 的 这 习 材 料 ， 我 们 建议 





先 阅读 附录 A。 此 外 ， 附 录 B 对 神经 网 络 学 习 过 程 中 比较 困难 的 部 分 

《 即 反 回 传 播 算法 ) 有 详细 的 数学 介绍 。 如 果 读 者 已 经 对 神经 网 络 有 所 
了 解 ， 但 还 从 未 实现 过 神经 网 络 代码 ， 我 们 建议 你 立即 跳 到 5.5 节 。 如 

末 你 已 熟悉 神经 网 络 的 实现 ， 请 直接 进入 第 6 音 ， 了 解 如 何 用 神经 网 络 
来 预 训 第 4 章 中 生成 的 棋局 中 的 动作 。 





5.1 一 个 简单 的 用 例 ; 手 号 数字 分 类 


在 详细 介绍 神经 网 络 之 前 ， 让 我 们 先 认识 一 个 具体 用 例 。 在 本 章 
中 ， 我 们 将 构建 一 个 可 以 良好 地 预测 手写 数字 图 像 的 应 用 ， 其 准确 率 约 
为 959%。 值 得 注意 的 是 ， 只 需 将 图 像 的 像素 值 发 送 给 神经 网 络 就 可 完成 
所 有 操作 ， 这 个 算法 能 够 自己 学 会 如 何 抽取 数字 的 结构 信息 。 








要 实现 这 个 目标 ， 我 们 将 采用 改进 版 美国 国家 标准 与 技术 研究 所 
(Modified National Institute of Standards and Technology，MNIST) 手写 
数字 数据 集 。 这 是 一 个 经 过 深入 研究 的 数据 集 ， 它 在 深度 学 习 领 域 的 地 
位 相当 于 果 蝇 在 生物 研究 界 的 地 位 。 





在 本 章 中 ， 我 们 将 使 用 NumPy 库 来 处 理 底层 数学 运算 。NumPy 是 
Python 机 器 学 习 和 科学 计算 的 行业 标准 ， 本 书 的 其 余部 分 也 都 会 使 用 
它 。 在 尝试 运行 本 章 的 代码 示例 之 前 ， 读 者 应 当先 通过 惯用 的 包 管 理 器 
来 安装 NumPy。 例 如 ， 如 果 使 用 的 是 pip， 可 以 在 shell 里 运行 pip 
install numpy 来 安装 它 ， 如 果 使 用 的 是 Conda， 可 以 运行 conda 


install numpy。 


5.1.1 MNIST 手 写 数字 数据 集 





MNIST 数 据 集 由 60 000 个 图 像 组 成 ， 所 有 图 像 尺 寸 均 为 28 像 素 x 28 
像素 。 图 5-1 展 示 了 这 个 数据 集 的 几 个 样本 示例 。 对 人 类 来 说 ， 识 别 出 
示例 中 的 大 多 数 图 像 都 是 小 菜 一 碟 。 例 如 ， 人 可 以 轻松 地 读 出 第 一 行 的 
数字 7、5、3、9、3、0 等 ， 但 数据 集中 也 有 少数 图 像 连 ee 
靳 。 例 如 ， 图 5-1 中 第 5 行 的 第 4 张 图 片 ， 很 难 分 辨 到 底 是 4 还 是 9。 
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识别 领域 中 经 过 充分 研究 的 一 个 
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图 5-1 取 自 MNIST 手 写 数字 数据 集 的 一 些 样 
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MNIST 中 每 个 图 像 都 带 有 标签 注释 ， 其 内 容 是 一 个 0 一 9 的 数字 ， 用 
来 表示 图 像 所 描绘 的 真实 数字 值 。 

在 查看 具体 数据 之 前 ， 需 要 先 加 载 它 。 这 套数 据 可 以 在 本 书 的 
GitHub 代 码 库 中 找到 ， 放 在 文件 夹 dlgo/mn 中 名 为 mnist.pkl.gz 的 文件 里 。 





这 个 文件 夹 还 包含 了 本 章 将 要 编写 的 全 部 代码 。 但 和 以 往 一 样 ， 我 
们 建议 读者 按照 本 章 的 内 容 流程 从 零 开 始 编写 代码 。 当 然 ， 你 也 可 以 等 


试 直接 运行 GitHub 代 码 库 中 的 代码 。 
5.1.2 ” MNIST 数 据 的 预 处 理 


由 于 这 个 数据 集中 的 标签 是 0 一 9 的 整数 ， 我 们 可 以 使 用 一 种 称 为 独 
热 编 可 〈one-hot encoding) 的 技术 将 标签 值 转换 为 长 度 为 10 的 癌 量 ， 如 
代码 清单 5-1 所 示 。 例 如 ， 数 字 1 可 以 转换 为 一 个 长 上 度 为 10 的 回 量 ， 其 中 
槽 位 1 的 值 为 1， 而 其 他 9 个 模 位 的 值 都 是 (。 独 热 编 码 是 一 种 很 有 用 的 表 
示 方 式 ， 它 在 各 种 机 器 学 习 场 景 中 都 有 广泛 应 用 。 用 辐 量 中 的 第 一 个 村 
位 来 表示 标签 1， 这 种 方式 可 以 让 神经 网 络 之 类 的 算法 更 容易 区 分 不 同 
的 标签 。 使 用 独 热 编 码 ， 数 字 2 表 示 为 [6,6,1,8,8,6,9,9,9,9]。 





代码 清单 5-1 用 独 热 编码 对 MNIST 标 签 进行 编码 





import six.moves.cPickle as pickle 
import gzip 
import numpy as np 


def encode label(j): <--- ”将 索引 编码 为 长 度 为 16 的 问 量 
e = np.zeros((106, 1)) 
e[j] = 1.6 
return e 








独 热 编码 的 优点 是 每 个 数字 都 有 上 自己 的 权 位 ， 这 样 束 可 以 使 用 神经 
网 络 为 早 个 输入 图 像 输 出 每 个 横 位 的 概 识 (probability〉， 这 在 之 后 的 
计算 中 很 有 用 处 。 


检查 文件 mnist.pkl.gz 的 内 容 ， 我 们 可 以 友 现 它 包 含 了 3 个 可 用 的 数 
据 池 : 训练 数据 、 验 证 数据 和 测试 数据 。 回 忆 第 1 革 ， 我 们 使 用 训练 数 





据 来 训练 或 拟 合 机 器 学 习 算 法 ， 使 用 测试 数据 来 评估 算法 的 学 习 效果 。 
验证 数据 可 用 于 调整 和 验证 算法 的 配置 ， 在 本 章 中 可 以 先 忽 略 。 





MNIST 数 据 集中 的 图 像 是 二 维 的 ， 高 度 和 宽度 均 为 28 像 素 。 图 像 数 
据 可 以 加 载 成 维度 为 784 〈 即 28x28) 的 特征 癌 量 (feature vector) 。 这 
里 我 们 完全 丢弃 了 图 像 结 构 ， 只 把 像素 作为 同 量 。 这 个 向 量 的 每 个 值 可 
以 取 0 或 1， 其 中 0 表示 白色 ，1 表 示 黑 色 ， 如 代码 清单 5-2 所 示 。 














代码 清单 5-2 ”将 MNIST 数 据 转 换 变形 并 加 载 训练 数据 与 测试 数据 








def shape_data(data) : 
features = [np.reshape(x, (784, 1)) for x in data[6]] <--- 将 输入 图 
展 平 成 维度 为 784 的 特征 问 量 

















labels = [encode label(y) for y in data[1]] <--- 所 有 的 标签 都 用 独 热 
高 码 进行 编码 

















return zip(features, labels) <--- 创建 特征 标签 对 


def load data() : 
with gzip.open('mnist.pkl.gz', 'rb') as f: 

train data, validation data, test data = pickle.load(f) 

压 并 加 载 MNIST 数 据 ， 得 到 3 个 数据 集 














return shape data(train data), shape data(test data) <--- 忽略 验证 
数据 ， 将 其 他 两 个 数据 集 转 换 变形 


























这 样 我 们 就 得 到 了 一 个 表示 MNIST 数 据 集 的 简单 形式 : 特征 和 标签 
都 被 编码 为 癌 量 。 接 下 来 的 任务 是 设计 一 种 机 制 来 学 习 如 何 准确 地 将 特 
征 上 映射 到 标签 上 。 有 具体 而 言 ， 我 们 需要 设计 一 种 算法 来 学 习 训 练 数 据 的 
特征 与 标签 ， 并 根据 测试 数据 给 出 的 特征 预测 出 对 应 的 标签。 

















我 们 在 下 一 节 可 以 看 到 ， 神 经 网 络 可 以 很 好 地 完成 这 项 工作 。 我 们 
先 讨论 一 种 简单 的 方法 来 揭示 这 类 应 用 所 需要 解决 的 共同 问题 。 识 别 数 











字 对 人 类 来 说 是 一 项 相对 简单 的 任务 ， 但 我 们 很 难 精确 地 解释 人 们 如 何 
做 到 这 一 点 ， 也 很 难 解释 我 们 是 如 何 了 解 到 我 们 所 知 的 。 这 种 现象 ， 即 
知道 如 何 做 ， 却 无 法 解释 清楚 为 什么 知道 ， 被 称 为 波 拉 尼 悖 论 
(Polanyi’s paradox) 。 这 一 点 导致 我 们 想 辐 计算 机 明确 描述 如 何 解决 


这 个 问题 变 得 特别 困难 。 


在 这 个 应 用 中 扮演 关键 角色 的 重要 问题 是 模式 识别 〈pattern 
recognition) ， 即 每 个 手写 数字 都 有 着 和 它 的 数字 原型 有 关 的 特征 。 例 
如 ，0 大 致 是 椭圆 形 的 ， 又 如 ， 在 许多 国家 中 1 用 一 条 简 蛙 的 竖 线 表示 。 
根据 这 些 简单 的 特征 逻辑 ， 我 们 可 以 通过 相互 比较 手写 数字 ， 对 手写 数 
字 进 行 粗略 地 分 类 : 给 定 一 个 数字 8 的 图 像 ， 那 么 与 其 他 数字 相 比 ， 它 
应 该 更 接近 于 8 的 平均 图 像 。 代 码 清 单 5-3 中 的 average_digit 函 数 可 以 
计算 一 个 数字 的 平均 图 像 。 




















代码 清单 5-3 ”计算 相同 数字 的 所 有 图 形 的 平均 值 








import numpy as np 
from dlgo.nn.load mnist import 1oad _ data 
from dlgo.nn.layers import sigmoid double 





def average digit(data, digit): <--- 为 数据 集中 所 有 代表 指定 数字 的 样本 计算 
平均 值 














filtered data = [x[6] for x in data if np.argmax(x[1]) == digit] 
filtered array = np.asarray(filtered data) 
Peturn np.average(filtered array, axis=0) 


train, test = load data() 
avg eight = average digit(train, 8) <--- 把 数字 8 的 平均 值 作 为 一 个 简单 模型 
的 参数 ， 用 来 检测 数字 8 











训练 集中 的 数字 8 的 平均 图 像 是 什么 样 的 ? 图 5-2 给 出 了 答案 。 





图 5-2 ”这 是 MNIST 训 练 集中 的 手写 数字 8 的 平均 图 像 。 通 常 来 说 ， 将 数 百 个 不 同 图 像 取 平均 
值 ， 会 得 到 一 堆 无 法 识别 的 斑点 ， 但 本 例 中 的 这 个 平均 图 像 看 起 来 仍然 非常 像 数 字 8 


由 于 手写 的 数字 个 体 之 间 的 差距 可 能 很 大 ， 因 此 平均 图 像 会 显得 有 
扩 儿 模糊 。 图 中 的 情况 确实 符合 这 个 预期 ， 但 它 的 形状 仍然 能 明显 看 出 
是 数字 8。 也 许 我 们 可 以 利用 它 来 识别 数据 集中 的 其 他 数字 8? 代码 清单 
5-4 中 的 代码 可 以 用 来 计算 数字 8 的 平均 图 像 ， 并 展示 出 图 5-2 所 示 的 图 
像 。 





代码 清单 5-4 计算 并 展示 训练 集中 数字 8 的 平均 图 像 


from matplotlib import pyplot as plt 


img = (np.reshape(avg eight, (28, 28))) 
plt.imshow(img) 
plt. show() 





MNIST 的 训练 集中 数字 8 的 平均 值 avg_eight 包 含 了 数字 8 在 图 像 中 
如 何 呈 现 的 大 量 相关 信息 。 可 以 使 用 avg_eight 作 为 一 个 简单 模型 的 参 
数 来 判断 某 个 表示 数字 的 输入 向 量 x 是 否 为 8。 在 神经 网 络 的 场景 中 ， 我 
们 在 讨论 参数 的 时 候 ， 经 常 说 权重 ， 这 时 候 就 可 以 把 avg_eight 当 作 权 





重 来 用 。 





为 方便 起 见 ， 可 以 将 这 个 向量 进行 转 置 并 得 到 W = 
np.transpose (avg_eight) 。 然 后 计算 W 和 x 的 点 积 ， 它 会 将 W 和 x 的 
像素 值 逐 对 相 乘 ， 并 将 所 有 784 个 结果 值 相 加 。 如 果 我 们 的 想法 是 正确 
的 ， 并 且 如 果 x 确 实 是 数字 8， 那 么 x 的 像素 在 与 W 相 同 的 地 方 应 该 有 差 不 
多 的 色调 值 。 相 反 ， 如 果 x 不 是 数字 8， 那 么 它 与 W 的 重合 就 会 比较 少 。 
让 我 们 用 几 个 例子 检验 这 个 假设 ， 如 代码 清单 5-5 所 示 。 











代码 清单 5-5 ”使 用 点 积 计算 一 个 数字 图 像 与 权重 的 接近 程度 














x 3 = train[2][6] <--- 下 标 为 2 的 训练 样本 是 数字 4 
x 18 = train[17][6] <--- ”下 标 为 17 的 训练 样本 是 数字 8 








W = np.transpose(avg eight) 
np.dot(W, x_3) <--- 这 一 项 的 计算 结果 是 26.1 
np.dot(W, x_18) <--- ”这 一 项 的 计算 结果 要 大 得 多 ， 约 为 54.2 











我 们 选取 两 个 MNIST 样 本 ， 其 中 一 个 代表 数字 4， 男 一 个 代表 数字 
8， 并 计算 它们 与 权重 W 的 点 积 。 可 以 看 到 ， 数 字 8 的 点 积 结果 为 54.2， 
远 远 高 于 数字 4 的 点 积 结果 20.1。 看 起 来 我 们 走 对 路 了 。 那 么 ， 点 积 结 
果 是 多 少 的 时 候 应 当 判 断 为 数字 8 呢 ? 理论 上 两 个 向 量 的 点 积 可 以 算出 
任意 实数 值 。 我 们 可 以 把 点 积 的 输出 值 进行 转换 〈transform) 并 映射 到 
输出 范围 为 [0, 1] 的 某 个 值 ， 然 后 就 可 以 试 着 设置 一 个 如 0.5 这 样 的 判断 
闪 值 ， 对 于 高 于 阔 值 的 结果 就 可 以 判定 为 数字 8 了 。 

















要 进行 转换 ， 可 以 使 用 sigmoid 函 数 。sigmoid 函 数 通常 用 co 来 表示 。 
对 于 一 个 实数 x，sigmoid 函 数 定义 如 下 : 








o(x) 








图 5-3 ”绘制 sigmoid 函 数 的 图 形 。sigmoid 函 数 将 实数 值 映 射 到 [0, 1] 的 范围 内 。 在 0 附近 ， 它 的 
和 斜率 相当 陡峭 而 随 着 参数 值 正 向 增 大 或 负 问 减 小 ， 曲 线 逐 渐变 得 平缓 






































接 下 来 ， 在 将 sigmoid 函 数 应 用 到 点 积 的 输出 之 前 ， 让 我 们 先 在 
Python 中 编写 sigmoid 函 数 ， 如 代码 清单 5-6 所 示 。 


代码 清单 5-6 ”为 double 类 型 和 向 量 类 型 的 数据 实现 简单 的 sigmoid 函 数 








def sigmoid double(x): 
return 1.6 / (1.6 + np.exp(-x)) 


def sigmoid(z): 
return np.vectorize(sigmoid double)(z) 








注意 ， 首 先 要 写 一 个 接收 double 类 型 参数 的 函 
数 sigmoid_double， 然 后 再 利用 它 来 实现 针对 回 量 值 的 sigmoid 函 数 ， 








这 个 函数 会 在 本 章 中 多 次 应 用 。 在 实际 计算 之 前 请 注意 ，2 的 sigmoid 也 
数 结果 已 经 非常 接近 1， 因 此 对 于 先前 计算 的 两 个 样本 ，sigmoid(54.2) 和 
sigmoid(20.1)， 就 几乎 无 法 区 分 了。 要 解决 这 个 问题 ， 可 以 将 点 积 的 输 
出 朝 0 俩 移 (shifting〉。 我 们 把 执行 一 次 这 样 的 偏 移 操 作 称 为 应 用 一 个 
偏 关 项 (bias term) ， 通 常 写 作 b。 从 样本 中 可 以 计算 出 ， 偏 差 项 的 一 

个 比较 理想 的 估计 值 是 b= -45。 有 了 权 和 童 和 偏差 项 ， 现 在 就 可 以 按照 代 
码 清单 5-7 所 示 的 方法 来 计算 模型 的 预测 值 (prediction ) 了 。 





























代码 清单 5-7 使 用 点 积 和 sigmoid 函 数 ， 根 据 权 重 与 偏差 计算 出 预测 值 








def predict(x, W, b): <--- 通过 对 np.dot(NW，x)+b 的 输出 应 用 sigmoid 函 数 来 计 
算出 一 个 简单 预测 值 
return sigmoid double(np.dot(W, x) + b) 











+--- ”根据 之 前 计算 过 的 示例 ， 将 偏差 项 设置 为 -45 





print(predict(x 3, W, b)) <--- 这 个 数字 4 的 示例 ， 其 预测 值 接近 8 
print(predict(x 18, W, b)) <--- ”这 个 数字 8 的 示例 ， 其 预测 值 是 9.96。 看 来 这 个 
启发 式 规 则 是 有 效果 的 














从 上 面 两 个 示例 x_3 和 x_18 中 ， 我 们 得 到 了 令 人 满意 的 结果 。 前 者 
的 预测 值 几 乎 为 0%， 而 后 者 的 预测 值 接 近 于 1。 我 们 把 这 个 将 W 的 输入 问 
量 x 映射 到 o(Wx +b) 并 得 到 与 x 维度 相同 的 向 量 的 过 程 ， 称 为 对 紊 回归 
(logistic regression) 。 图 5-4 展 示 了 这 个 算法 用 于 维度 为 4 的 同 量 的 示 
例 。 








y=o(Wx+b) 


y 值 依赖 于 x1~x 


输入 x 是 维度 的 所 有 值 。 


为 4 的 向 量 。 








图 5-4 ”对 率 回 归 的 示例 ， 将 维度 为 4 的 输入 向 量 x 映 射 到 0 一 1 的 输出 值 y>。 本 图 表明 输出 y 依 赖 于 
输入 向 量 x 中 的 所 有 4 个 值 








为 了 更 好 地 了 人 解 这 个 过 程 的 工作 效果 ， 让 我 们 用 它 来 计算 所 有 训练 
样本 和 测试 样本 的 预测 值 。 如 前 所 述 ， 我 们 可 以 定义 一 个 截断 点 ， 或 决 
策 阔 值 〈decision threshold) ， 用 来 决定 预测 值 是 否 算 作 数 字 8。 我 们 
可 以 选择 准确 率 (accuracy) 作为 评估 指标 。 准 确 率 就 是 所 有 的 预测 结 
果 中 预测 正确 的 比率 ， 如 代码 清单 5-8 所 示 。 


代码 清单 5-8 评估 使 用 了 决策 阔 值 的 模型 预测 














def evaluate(data, digit, threshold, W, b): F 佑 指标， 我 们 可 以 
选择 准确 率 ， 即 所 有 预测 结果 中 预测 正确 的 比率 
total samples = 1.6 * len(data) 
correct predictions = 6 
for x in data: 
if predict(x[6], W, b) > threshold and np.argmax(x[1]) == digit: 
































<--- 将 数字 8 的 实例 预测 为 8， 是 一 次 正确 的 预测 
correct predictions += 1 
if predict(x[6], W, b) “= threshold and np.argmax(x[1]) != digit: 
<--- ”如 果 预 测 值 低 于 设 定 的 闵 值 ， 并 且 样 本 也 确实 不 是 数字 8， 那 么 这 也 是 一 次 正确 的 
预测 





correct predictions += 1 
return correct predictions / total samples 





让 我 们 使 用 这 个 评估 函数 来 评估 3 个 数据 集 的 预测 质量 : 训练 集 、 
测试 集 和 测试 集中 所 有 数字 8 的 集合 。 和 前 面 一 样 ， 这 里 将 决 集 国 值 设 
为 0.5， 权 重 为 N， 仿 差 项 为 5p， 如 代码 清单 5-9 所 示 。 











代码 清单 5-9 ”计算 3 个 数据 集 的 预测 准确 率 








evaluate(data=train, digit=8, threshold=6.5, W=W, b=b) <--- 这 个 简单 模 
型 在 训练 数据 上 的 准确 率 为 78% (8.7814) 

















evaluate(data=test, digit=8, threshold=0.5, W=W, b=b) <--- 在 测试 数据 上 


的 准确 率 稍 低 ， 为 77% (8.774 9) 


eight test = [x for x in test if np.argmax(x[1]) == 8] 
evaluate(data=eight test, digit=8, threshold=6.5, W=W, b=b) <e--- 
测试 集中 的 数字 8 的 集合 进行 评估 ， 则 准确 率 仅 为 67% 〈8.666 3) 
































可 以 看 到 ， 使 用 训练 集 的 准确 紊 最 高 ， 约 为 78%。 这 并 不 奇怪 ， 
为 我 们 的 模型 就 是 通过 在 训练 集 上 调 校 〈calibrate) 而 得 出 的 。 但 是 对 
训练 集 进 行 评 佑 是 没有 意义 的 ， 因 为 这 样 做 无 法 得 知 算法 的 泛 用 效果 

Cgeneralize) ， 即 对 没有 见 过 的 数据 集 的 执行 效果 。 在 测试 数据 上 的 表 
现 接 近 于 在 训练 数据 上 的 表现 ， 准 确 率 约 为 77%。 而 最 后 一 个 准确 率 最 
值得 注意 : 在 所 有 数字 8 的 测试 集中 ， 我 们 只 达到 了 约 66% 的 准确 率 ， 
这 相当 于 每 遇 到 3 个 新 数字 8 我 们 只 能 猜 对 其 中 2 个 。 这 个 结果 作为 一 个 
基线 还 可 以 接受 ， 但 远 远 不 是 能 够 达到 的 最 好 结果 。 那 么 到 底 哪里 出 了 
问题 呢 ?又 有 哪些 地 方 可 以 做 得 更 好 ? 














。 模型 现在 只 能 区 分 特定 数字 《此 处 为 数字 8) 与 其 他 所 有 数字 。 由 
于 训练 集 和 测试 集中 每 个 数字 的 图 像 数 量 分 布 是 均衡 的 
(balanced) ， 数 字 8 的 样本 大 约 只 占 10%。 因 此 ， 只 要 用 一 个 始终 
预测 数字 为 0 的 简单 模型 ， 我 们 就 能 得 到 约 90% 的 准确 率 。 在 分 析 
解决 分 类 问题 的 时 候 ， 需 要 特别 注意 这 种 分 类 不 均衡 (class 


imbalance) 的 情况 。 考 虑 到 这 一 点 ， 模 型 在 测试 数据 集 上 779% 的 准 
确 率 承 不 再 显得 优秀 了 。 我 们 需要 定义 一 个 可 以 准确 预测 全 部 10 
个 数字 的 模型 。 

模型 参数 相当 小 。 对 于 有 数 干 种 不 同 风格 的 手写 图 像 集 合 ， 我 们 采 
用 的 权重 集 大 小 却 只 和 单个 图 像 相同 。 想 要 用 这 么 小 的 模型 来 捕获 
这 么 多 样 的 手写 风格 变化 是 不 现实 的 。 必 须 找 到 一 类 算法 ， 它 们 
可 以 有 效 地 使 用 更 多 参数 来 捕获 数据 中 的 可 能 变化 。 

对 于 某 个 给 定 的 预测 值 ， 我 们 只 简单 地 选取 了 一 个 靖 值 来 判定 该 数 
字 是 否 为 8， 而 并 没有 使 用 预测 的 具体 值 来 评估 模型 的 质量 。 例 
如 ， 一 个 预测 值 为 0.95 的 正确 预测 ， 表 定 比 预测 值 为 0.51 的 预测 结 
果 更 有 说 服 力 。 必 须 找到 合适 的 形式 来 表示 预测 值 与 真实 输出 之 
间 的 接近 程度 。 

这 个 模型 的 参数 是 通过 直觉 的 引导 制作 而 出 的 。 虽 然 作为 第 一 次 答 
试 这 可 能 是 一 个 不 错 的 结果 ， 但 机 器 学 习 真 正 的 优势 在 于 不 需要 把 
人 们 对 数据 的 想法 强加 到 算法 中 ， 而 是 让 算法 自己 去 数据 中 学 习 。 
每 当 模 型 做 出 正确 预测 时 ， 都 需要 强化 这 种 行为 ， 而 每 当 输 出 是 错 
误 的 时 候 ， 也 需要 相应 地 调整 模型 。 换 句 话 说， 需要 设计 一 种 能 够 
根据 训练 数据 的 预测 效果 来 更 新 模型 参数 的 机 制 。 




















虽然 我 们 对 这 个 简单 的 应 用 和 前 面 构建 的 朴素 模型 只 进行 了 简短 而 
粗略 的 讨论 ， 但 读者 应 当 已 经 能 感觉 到 神经 网 络 的 很 多 特征 了 。 在 5.2 
节 中 ， 我 们 会 利用 本 节 示 例 所 建立 的 直觉 ， 通 过 逐一 解决 上 面 提 到 的 4 
个 问题 来 正式 进入 神经 网 络 话题 的 探讨 。 








5.2 ”神经 网 络 基础 





我 们 应 当 如 何 改进 OCR 模型 呢 ? 前 面 的 介绍 已 经 有 所 上 暗示， 神经 网 


络 可 以 在 这 类 任务 上 做 得 非常 出 色 ， 远 远 比 我 们 制作 的 模型 要 好 得 多 。 
但 制作 的 模型 能 够 帮助 我 们 理解 构建 神经 网 络 的 关键 概 仿 。 本 市 束 用 神 
经 网 络 的 语言 来 重新 描述 5.1 节 介绍 的 模型 。 


5.2.1 将 对 率 回 归 摘 述 为 简单 的 神经 网 络 


在 5.1 节 中 ， 我 们 实现 了 用 于 二 元 分 类 (binary classification) 的 对 
率 回 归 算 法 。 简 而 言 之 ， 我 们 用 一 个 特征 问 量 x 来 表示 一 个 数据 样本 ， 
作为 算法 的 输入 ， 接 着 将 它 乘 以 权重 矩阵 W， 然 后 再 添加 偏差 项 bp。 要 
得 到 一 个 0 一 1 的 预测 值 y， 可 以 对 它 应 用 sigmoid 函 数 : y = o(Wx +b)。 








这 里 需要 注意 几 点 。 首 先 特征 向 量 x 可 以 看 成 是 神经 元 〈 有 时 称 为 
一 个 单元 ， 即 unit) 的 集合 ， 它 通过 多 和 1 与 y 相 连 。 这 个 关系 我 们 已 经 
在 图 5-4 中 看 到 了 。 另 外 ，sigmoid 可 以 看 作 一 个 激活 函数 ， 因 为 这 个 函 
数 接收 Wx + b 的 计算 结果 ， 并 将 它 映 射 到 [0, 1]。 如 果 将 结果 这 样 解释 : 
当 结 果 值 接近 1 时 ， 表 示 神 经 元 y 被 激活 ; 当 结 果 值 接近 0 时 ， 则 表示 神 
经 元 不 被 激活 ， 那 么 我 们 可 以 把 这 个 算法 设置 看 作 是 人 工 神经 网 络 的 一 
个 简单 示例 。 














5.2.2 具有 多 个 输出 维度 的 神经 网 络 


在 5.1 节 的 用 例 中 ， 我 们 将 手写 数字 的 识别 问题 简化 为 一 个 二 元 分 
类 问题 ， 区 分 数字 8 与 其 他 数字 。 但 古 我 们 真正 感 兴趣 的 是 预测 所 有 10 
个 分 类 ， 每 个 分 类 代表 1 个 数字 。 从 形式 上 说 ， 要 实现 这 一 点 并 不 困 


难 ， 只 要 改变 y、W 和 b 所 表示 的 内 容 即 可 。 换 句 话说 ， 需 要 变更 模型 的 
输出 、 权 重 与 偏差 项 。 


首先 ， 我 们 把 y 改 为 维度 为 10 的 四 量 : 每 个 维度 的 值 代表 其 中 一 个 
数字 的 可 能 性 。 





10 
yl 
Y= | : 
8 
19 





接 下 来 让 我 们 相应 地 调整 权重 和 偏差 项 。W 之 前 十 一 个 长 度 为 784 
的 回 量 ， 现 在 我 们 可 以 将 它 改 为 尺寸 为 (10, 784) 的 矩阵 。 这 样 束 可 以 对 
W 和 输入 向量 x 进行 第 阵 乘法 ， 即 Wx， 其 结果 将 是 维度 为 10 的 向 量 。 接 
着 如 条 将 偶 关 项 设 为 维度 为 10 的 问 量 ， 就 可 以 将 其 与 Wx 相 加 了 。 节 后 
请 注意 ， 对 于 一 个 辣 量 z， 我 们 可 以 通过 对 它 的 每 一 个 元 素 应 用 sigmoid 
函数 来 计算 整个 辐 量 的 sigmoid 值 : 











图 5-5 展 示 了 这 个 稍 作 修改 的 设置 ， 示 例 中 有 4 个 输入 神经 元 和 2 个 输出 神经 元 。 























对 z 的 每 一 个 元 素 


eT 应 用 sigmoid 函 数 。 
和 矩 阵 W 将 x 转换 为 输出 是 一 个 维度 
维度 为 2 的 向 量 z。 为 2 的 向 量 。 

















图 5-5 在 这 个 简单 的 神经 网 络 中 ，4 个 输入 神经 元 连接 到 2 个 输出 神经 元 : 先 将 输入 向 量 与 一 个 
2 x 4 的 矩阵 相 乘 ， 再 与 一 个 二 维 的 偶 差 项 相 加 ， 了 节 后 对 得 出 结果 的 每 个 元 素 应 用 sigmoid 函 数 ， 
从 而 得 到 输出 




















那么 我 们 的 更 改 有 什么 用 呢 ? 之 前 我 们 是 将 输入 问 量 x 映 射 到 一 个 
单 值 y， 而 现在 输出 y 变 成 了 一 个 向 量 。 这 样 我 们 就 可 以 多 次 进行 这 种 向 
量 到 向量 的 转换 ， 从 而 构建 出 一 个 更 复杂 的 神经 网 络 ， 我 们 称 之 为 前 馈 


网 络 (feed-forward network) 。 


5.3 ”前 馈 网 络 


让 我 们 快速 回顾 一 下 我 们 在 5.2 节 中 所 做 的 工作 。 用 更 抽象 的 话 来 
说 ， 我 们 执行 了 以 下 两 个 步 又 。 


(1) 我 们 从 一 个 输入 神经 元 回 量 x 开始 ， 并 对 它 应 用 了 一 个 简单 的 
变换 ， 即 z = Wx + b。 在 线性 代数 的 语言 中 ， 这 种 变换 称 为 仿 射 线性 变 
换 (affine linear transformation) 。 为 简化 描述 ， 这 里 我 们 用 z 作 为 中 间 
变量 来 代 丛 变换 的 结 


(2) 我们 应 用 了 一 个 激活 函数 ， 即 sigmoid 函 数 y = o(z) 来 获得 输出 
神经 元 y。 应 用 ca 的 结果 可 以 给 出 y 的 激活 程度 。 


让 站 如 本 区 


前 馈 网 络 的 关键 理念 在 于 这 个 过 程 可 以 迭代 重复 应 用 ， 从 而 可 以 多 
次 应 用 上 面 描述 的 两 个 步骤 组 成 的 简单 构建 块 。 这 些 构建 块 就 是 我 们 所 
谓 的 层 。 改 用 这 个 术语 的 话 ， 我 们 可 以 说 : 通过 堆 革 (stack) 许多 层 来 


组 成 的 一 个 多 层 神 经 网 络 (multilayer neural network) 。 下 面 我 们 修改 


前 面 的 例子 ， 再 多 引入 一 层 。 现 在 需要 执行 以 下 两 个 步骤 。 








(1) 从 输入 向 量 x 开 始 ， 计 算 zt = Wix + bi。 


(2) 从 中 间 结 果 zt 开 始 ， 可 以 计算 输出 结果 y， 公 式 为 y = W2zl + 
b’。 


注意 ， 











此 处 使 用 上 标 来 表示 辣 量 所 在 的 层 ， 用 下 标 来 表示 问 量 或 矩 
阵 中 的 位 置 。 图 5-6 展 示 了 一 个 包含 两 层 而 不 是 单 层 的 网 络 示例 。 




















z=0o(W™x) y=0(W’z)) 


输出 





i 入 
本 隐藏 层 


图 5-6 一 个 两 层 人 工 神经 网 络 。 输 入 神经 元 x 连接 到 一 组 中 间 单 元 z:， 后 者 再 连接 到 输出 神经 
元 y 





此 时 有 一 点 已 经 很 明显 了 : 堆 炙 的 层 数 并 没有 特定 的 限制 。 我 们 可 
以 堆 又 很 多 层 。 此 外 ， 激 活 函 数 也 不 必 总 是 用 sigmoid 函 数 。 实 际 上 可 
供 选 择 的 激活 函数 非常 多 ， 我 们 将 在 第 6 章 介 绍 其 中 的 几 个 。 我 们 将 网 
络 中 所 有 层 中 的 函数 按 顺序 应 用 于 一 个 或 多 个 数据 点 的 过 程 ， 称 为 一 个 
前 向 传递 (forward pass) 。 之 所 以 称 为 前 向 传递 ， 是 因为 在 这 个 过 程 
中 ， 数 据 总 是 按照 输入 到 输出 的 方向 《在 图 5-6 中 即 从 左 到 右 ) 向 前 流 
动 而 从 不 回 退 。 








采用 这 几 个 术语 ， 我 们 可 以 用 图 5-7 来 表示 一 个 包含 3 层 的 普通 前 僻 
网 络 。 


zl=aode)) z=a(zD) y=0(f (z)) 
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第 一 个 隐藏 层 ” 第 二 个 隐藏 层 





图 5-7 3 层 前 馈 神经 网 络 。 在 定义 神经 网 络 时 ， 层 数 没有 限制 ， 每 层 的 神经 元 数量 也 没有 限制 








回顾 一 下 我 们 到 目前 为 止 所 学 的 知识 。 把 前 面 提 到 过 的 所 有 概念 集 
合 到 一 起 ， 列 成 一 个 简明 的 列表 。 


。 顺序 神经 网 络 是 一 种 将 特征 〈 或 输入 神经 元 ) x 上 映射 到 预测 〈 或 输 
出 神经 元 ) y 的 结构 。 我 们 可 以 按照 顺序 逐个 堆 登 一 层 层 简单 函数 
来 构建 顺序 神经 网 络 。 

。 神经 网 络 的 每 一 层 都 是 一 个 将 给 定 输入 映射 到 输出 的 公式 。 用 一 批 
数据 计算 一 层 的 输出 的 过 程 ， 称 为 一 趟 前 癌 传 递 。 类 似 地 ， 要 计算 
整个 顺序 神经 网 络 的 前 同 传递 ， 可 以 从 输入 回 量 开始 按 顺 序 计算 每 
一 层 的 前 同 传递 来 完成 。 

。 sigmoid 函 数 是 一 个 激活 函数 ， 它 接受 实 值 神 经 元 的 向 量 并 对 它们 
进行 流 活 ， 即 映射 到 范围 [0, 1] 里 的 一 个 值 。 我 们 把 接近 1 的 数值 算 
作 激 活 。 

。 给 定 权 重 和 矩阵 W 和 偏差 项 bp， 应 用 仿 射 线性 变换 Wx + pb 来 构成 神经 
网 络 的 一 层 。 这 一 层 通常 称 为 稠 窒 层 (dense layer) 或 全 连接 层 

(fully connected layer) 。 后 面 我 们 将 统一 用 稠密 层 来 称呼 它 。 











。 根据 实现 的 不 同 ， 笛 密 层 可 以 内 内 激 活 函数 ， 也 可 以 不 内 和 能 。 前 者 
的 意思 是 ， 可 以 把 o(Wx + 办 整体 作为 单独 的 一 层 ， 而 不 仅仅 是 其 中 
的 仿 射 线性 变换 。 后 者 的 意思 是 ， 也 可 以 把 激活 函数 看 作 独 立 于 稠 
密 层 之 外 的 单独 一 层 。 在 之 后 的 实现 中 ， 我 们 采用 后 者 。 总 的 来 
说 ， 在 分 析 如 何 将 函数 进行 拆 分 并 重组 为 逻辑 单元 的 过 程 中 ， 是 否 
将 激活 函数 内 纶 到 稠密 层 中 其 实 并 没有 本 质 区 别 ， 只 是 角度 不 同 而 
前 馈 神 经 网 络 是 由 稠密 层 和 激活 函数 所 组 成 的 顺序 网 络 。 出 于 历史 
原因 ， 这 种 架构 也 称 为 多 层 感 知 机 (multilayer 

perceptron，MLP) 。 但 本 书 并 没有 足够 空间 来 讨论 这 个 命名 的 历 
0 

所 有 既 不 是 输入 又 不 是 输出 的 神经 元 都 称 为 峰 藏 单元 (hidden 
unit) 。 相 对 应 地 ， 输 入 和 输出 神经 元 称 为 可 见 辕 元 (visible 

unit) 。 这 么 称呼 是 因为 隐藏 单元 是 属于 网 络 内 部 的 ， 而 可 见 的 单 
元 则 是 从 网 络 外 直接 可 观察 的 。 这 么 说 似乎 有 点 儿 牵 强 ， 因 为 我 们 
通常 都 能 够 访问 神经 网 络 系统 的 任何 部 分 ， 但 了 解 这 个 术语 并 没有 
坏处 。 同 理 ， 输 入 和 输出 之 间 的 层 称 为 隐藏 层 ， 所 有 超过 两 层 的 顺 
序 网 络 都 至 少 有 一 个 隐藏 层 。 

如 果 不 做 特殊 说 明 ， 我 们 统一 用 x 代 表 网 络 的 输入 ， 用 y 代 表 网 络 的 
输出 ; 有 了 时候 会 用 上 标 来 表示 正在 处 理 的 样本 。 


























堆 车 许多 层 而 构建 的 、 具 有 大 量 隐 藏 层 的 大 型 网 络 ， 称 为 深度 神经 
网 络 (deep neural network) ， 由 此 才 有 了 深度 学 习 这 个 说 法 。 





非 顺序 神经 网 络 


在 这 个 阶段 ， 读 者 只 需要 关注 顺序 神经 网 络 。 这 种 网 络 的 所 有 层 可 


以 形成 一 个 序列 。 在 顺序 神经 网 络 中 ， 从 输入 开始 ， 每 个 后 续 的 〈 隐 
藏 ) 层 都 恰好 有 一 个 前 导 和 一 个 后 继 ， 最 后 以 输出 层 结束 。 对 于 将 深度 
学 习 应 用 于 围棋 这 个 需求 ， 顺 序 神 经 网 络 就 足以 涵 凋 所 有 需要 了 。 


通常 来 说 ， 神 经 网 络 理论 也 允许 任意 非 顺 序 的 体系 结构 。 例 如 ， 在 
茶 些 应 用 中 ， 将 两 层 的 输出 连接 或 相 加 这样 会 合并 之 前 的 两 层 或 多 
层 ) 也 是 有 道理 的 。 在 这 种 情况 下 ， 多 个 输入 将 会 合并 ， 最 后 只 得 到 一 
个 输出 。 

而 在 其 他 应 用 中 ， 将 一 个 输入 拆 分 成 多 个 输出 也 可 能 很 有 用 。 总 而 


言 之 ， 层 可 以 具有 多 个 输入 和 输出 。 我 们 将 在 第 11 章 和 第 12 章 分 别 介 绍 
多 输入 和 多 输出 网 络 。 





具有 I! 层 的 多 层 感 知 机 的 配置 可 以 通过 权重 集 (W= Wi,.…, Wi) 、 
(偏差 集 b = b1,.…., b!) ， 以 及 为 每 一 层 选择 的 激活 函数 集 来 完全 描述 。 
但 我 们 仍然 缺少 一 个 学 习 数 据 以 及 更 新 参数 的 重要 素材 一 一 损失 阔 数 ， 
以 及 如 何 优 化 它 。 





5.4 我 们 的 预测 有 多 好 ? 损失 函数 及 优化 


5.3 节 定义 了 如 何 设置 前 馈 神经 网 络 ， 并 向 它 传递 输入 数据 ， 但 我 
们 仍然 不 知道 该 如 何 去 评 佑 预测 的 好 坏 。 要 做 到 这 一 点 ， 我 们 需要 一 种 
标准 来 定义 预测 结果 与 实际 结果 的 接近 程度 。 


5.4.1 什么 是 损失 函数 





为 了 量化 预测 与 目标 之 间 的 距离 ， 我 们 引入 损失 函数 的 概念 ， 它 通 
常 也 称 为 目标 函数 (objective function) 。 假 设 有 一 个 前 馈 网 络 ， 权 重 
为 W， 偏 差 项 为 b， 并 采用 了 sigmoid 激 活 函 数 。 对 于 一 组 给 定 的 输入 特 
征 X1, ..., Xi， 以 及 相应 的 标签 刀 ,..., WW (用 来 表示 标签 的 符号 9 读 作 y- 
hat〉， 这 个 神经 网 络 可 以 计算 预测 值 yj, .…, yk。 在 这 个 场景 中 ， 损 失 孙 
数 可 以 定义 如 下 : 


》 Loss (W, b, Xi,t) = 》 Loss (yi, ti) 
1 t 


这 里 ，Loss(y;, 访 )>20， 而 Loss 是 一 个 可 做 函数 (differentiable 
function) 。 损 失 函 数 是 一 个 可 以 为 每 对 值 (预测 , 标签 ) 赋 予 一 个 非 负 值 
的 平滑 函数 。 而 多 个 特征 与 标签 的 总 损失 值 是 所 有 样本 的 损失 值 的 总 
和 。 损 失 函 数 会 根据 所 提供 的 数据 来 评估 算法 参数 的 拟 合 程度 。 而 我 们 
的 训练 目标 则 是 找到 展 好 的 策略 来 拟 合 参数 ， 以 使 损失 函数 最 小 化 。 











5.4.2” 均 方 误差 


均 方 误差 (Mean Square Error，MSE) 是 一 个 广泛 使 用 的 损失 函 
数 。 虽 然 它 并 不 适合 我 们 的 用 例 ， 但 它 仍 然 是 最 直观 的 损失 函数 之 一 。 
在 MSE 中 ， 要 测量 预测 值 与 实际 标签 的 接近 程度 ， 可 以 测量 所 有 观测 到 
的 样本 的 距离 的 平方 ， 并 取 均 值 。 假 设 用 了 》= 方 ,.…, 次 表示 标签 值 ， 用 y 
= yy .…, 水 表示 预测 值 ， 则 均 方 误差 定义 如 下 : 


人 
MSE (vy.,y) = (Vi 一 六 
-= 

接 下 来 我 们 会 看 到 均 方 误差 函数 的 一 个 应 用 ， 然 后 再 讨论 各 种 损失 
函数 的 优 缺 点 。 不 过 在 此 之 前 ， 让 我 们 先 在 Python 中 实现 均 方 误差 函 
数 ， 如 代码 清单 5-10 所 示 。 




















代码 清单 5-10 ” 均 方 误差 损失 函数 及 其 导数 











import random 
import numpy as np 


class MSE: <--- 使 用 均 方 误差 作为 损失 函数 





def _ init_ (self): 
pass 


@staticmethod 
def loss function(predictions, labels): 
diff = predictions - labels 
return 6.5 * sum(diff * diff)[6] <--- 将 MsE 定 义 为 预测 与 标签 之 
的 平方 的 9.5 倍 


和 


@staticmethod 
def loss derivative(predictions, labels): 
return predictions - labels 
的 predictions-labels 























注意 ， 这 里 不 仅 实现 了 损失 函数 本 身 ， 还 实现 了 损失 函数 相对 于 预 
测 值 的 导数 loss_derivative。 这 个 导数 是 一 个 向 量 ， 可 以 通过 预测 
值 与 标签 值 相 减 获得 。 


接 下 来 我 们 将 看 到 像 MSE 这 样 的 导数 如 何在 训练 神经 网 络 中 发 挥 关 
键 作用 。 


5.4.3 ”在 损失 函数 中 找 极 小 值 


一 组 预测 与 标签 的 损失 函数 可 以 为 我 们 提供 信息 去 判断 模型 参数 微 
调 的 优 务 。 损 失 值 越 小 表示 预测 越 好 ， 反 之 损失 值 越 大 预测 越 差 。 损 失 
函数 本 身 是 神经 网 络 参数 的 函数 。 在 我 们 的 MSE 实 现 中 并 不 直接 提供 权 
重 ， 但 是 它们 已 经 通过 predictions 间 接 给 出 了 ， 因 为 预测 值 是 使 用 权 
重 来 计算 的 。 


从 微 积 分 知识 中 我 们 可 以 得 知 ， 在 理论 上 要 最 小 化 损失 函数 ， 需 要 
计算 它 的 导数 并 找到 导数 为 0 的 点 。 我 们 称 位 于 这 一 点 的 参数 集合 为 一 
个 解 〈solution) 。 计 算 函 数 的 导数 并 在 特定 点 进行 评估 的 过 程 ， 
ee 我 们 在 MSE 的 实现 中 已 经 完 
了 计算 导数 的 第 一 步 ， 但 还 有 更 多 事情 要 做 。 我 们 的 目标 是 显 式 地 计算 
网 络 中 所 有 a 的 梯度 。 














如 果 读 者 需要 进一步 了 解 微 积分 的 基础 知识 ， 请 务必 碍 看 附录 A。 
图 5-8 显 示 了 三 维 空间 中 的 一 个 曲面 。 这 个 曲面 代表 一 个 二 维 输入 的 损 
失 函 数 。 它 的 前 两 个 坐标 轴 代 表 权 重 ， 而 指名 上 方 的 坐标 轴 则 代表 损失 
值 。 
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图 5-8 





二 维 输入 的 损失 函数 示例 〈 一 个 损失 曲面 ) 。 该 曲面 在 右 下 方 的 深 色 区 域 附 近 达 到 极 小 
值 ， 这 个 值 可 以 通过 求解 损失 函数 的 导数 来 计算 





5.4.4 ”使 用 梯度 下 降 法 找 极 小 值 


直观 地 说 ， 在 计算 给 定点 的 函数 的 梯度 时 ， 该 梯度 指 同 上 升 最 陡 的 
方向 。 从 损失 函数 Loss 和 参数 W 开 始 ， 使 用 简 度 下 降 算 法 可 以 找到 损失 
函数 的 极 小 值 ， 步 又 如 下 所 示 。 


(1) 计算 当前 参数 组 W 的 损失 函数 梯度 A〔( 即 计算 损失 函数 相对 于 
每 个 权重 W 的 导数 )。 


(2) 从 W 中 减 去 A， 并 更 新 W。 我 们 称 这 一 步 动 作为 跟随 杨 度 。 因 
为 A 指向 上 升 最 陡 的 方 辐 ， 减 去 它 会 导致 梯度 走 癌 下 降 最 陡 的 方向 。 





(3) 重复 上 述 步 又， 直到 A 为 0。 





由 于 损失 函数 是 非 负 的 ， 因 此 它 肯 定 会 具有 极 小 值 。 当 然 ， 它 可 能 
有 很 多 个 其 至 无 数 个 极 小 值 。 例 如 ， 假 设 有 一 个 平坦 的 曲面 ， 则 它 上 面 
的 每 个 点 都 是 极 小 值 。 


局 部 极 小 值 和 全 局 极 小 值 





梯度 下 降 到 梯度 为 0 的 点 ， 按 定义 来 说 即 是 极 小 值 。 而 包含 许多 变 
量 的 可 微 函 数 的 极 小 值 ， 其 精确 数学 定义 较为 复杂 ， 并 且 需 要 用 到 函数 
的 曲率 (curvature) 信息 。 


跟随 着 梯度 下 降 ， 我 们 最 终 会 找到 一 个 极 小 值 ， 跟 随 函 数 的 梯度 下 
降 总 能 找到 梯度 为 0 的 点 。 但 我 们 还 需要 注意 一 点 : 我 们 无 法 得 知 这 个 
极 小 值 是 局 部 的 极 小 值 还 是 全 局 的 极 小 值 。 我 们 可 能 会 陷入 曲面 的 茶 个 
平台 区 域 ， 它 在 局 部 看 来 有 一 个 极 小 值 ， 但 在 函数 的 其 他 位 置 可 能 还 存 
在 绝对 值 更 小 的 点 。 图 5-8 中 的 标记 后 束 是 一 个 局 部 极 小 值 ， 因 为 在 曲 
面 上 存在 明显 更 小 的 值 。 








解决 这 个 问题 的 办 法 是 直接 忽略 它 ， 这 可 能 会 让 人 感觉 有 些 奇怪 。 
但 在 实践 中 ， 梯 度 下 降 通常 能 产生 令 人 满意 的 结果 ， 因 此 在 神经 网 络 损 
失 函 数 的 场景 中 ， 我 们 往往 忽略 是 局 部 极 小 值 还 是 全 局 极 小 值 这 个 问 
题 。 实 际 上 ， 算 法 往往 都 不 会 一 直 运 行 到 结果 收敛 才 停 止 ， 而 是 在 预先 
设 定好 的 步 数 之 后 就 先 停止 了 。 





图 5-9 展 示 了 在 图 5-8 的 损失 曲面 中 ， 选 取 右 上 角 标 记 所 示 的 参数 
扩 ， 并 执行 标 度 下 降 算 法 的 工作 流程 。 





图 5-9 迭代 地 跟踪 损失 函数 的 梯度 将 最 终 达 到 极 小 值 


在 我 们 的 MSE 实 现 中 已 经 可 以 看 到 ， 均 方 误差 损失 函数 的 导数 很 容 
易 从 形式 上 计算 : 它 束 是 标签 值 和 预测 值 之 差 。 但 要 评估 这 样 的 导数 ， 
必须 首先 计算 预测 值 。 而 要 获得 所 有 参数 的 梯度 视图 ， 必 须 为 训练 集中 
的 每 个 样本 计算 导数 并 聚合 结果 。 鉴 于 神经 网 络 常常 要 处 理 数 干 甚至 数 
百 万 的 数据 样本 ， 这 实际 上 是 不 可 行 的 。 相 反 地 ， 我 们 使 用 称 为 随机 椰 
度 下 降 (Stochastic Gradient Descent，SGD) 的 技术 来 近似 计算 梯度 。 











5.4.5 ”损失 函数 的 随机 梯度 下 降 算法 


要 计算 神经 网 络 的 梯度 并 应 用 梯度 下 降 算 法 ， 必 须 先 在 训练 集中 的 
每 个 数据 点 上 求 出 损失 函数 的 值 ， 以 及 损失 函数 相对 于 网 络 参数 的 导数 


的 值 。 这 样 的 计算 量 在 大 多 数 情 况 下 都 过 于 庞大 了 。 因 此 在 实践 中 ， 我 
们 采用 一 种 称 为 随机 村 上 度 下 降 的 技术 。 要 运行 SGD 算 法 ， 痢 先 需 要 从 训 
练 集中 选择 一 些 样本 ， 称 为 一 个 小 批量 Cmini-batch) 。 每 个 小 批量 都 
选取 固定 的 样本 数量 ， 我 们 称 之 为 小 批量 扩 寸 Cmini-batch size) 。 对 

于 识别 手写 数字 这 种 分 类 问题 ， 小 批量 尺寸 的 数量 级 最 好 与 标签 数量 相 
同 ， 以 确保 每 个 标签 都 能 在 一 个 小 批量 中 得 以 体现 。 








对 于 给 定 的 | 层 前 馈 神 经 网 络 ， 以 及 一 个 尺寸 为 k 的 小 批量 数据 xi， 
…; Xk， 可 以 计算 神经 网 络 的 前 同 传递 值 ， 并 计算 这 个 小 批量 的 损失 
值 。 对 于 这 一 批 数 据 中 的 每 个 样本 x， 可 以 计算 损失 函数 相对 于 神经 网 
络 的 任何 参数 的 梯度 ， 并 进行 评估 。 我 们 把 第 i 层 的 权重 和 偏差 项 梯度 
分 别称 为 AjW ' 和 Ajb'。 








对 于 这 个 小 批量 的 数据 中 的 每 一 层 和 每 个 样本 ， 可 以 计算 相应 的 梯 
上 度 ， 并 使 用 以 下 的 更 新 规则 update rule) 来 更 新 参数 : 





大 
Wic Wi-ay AW' 


=! 


天 
bob -a Ab 
7] 二 1 


要 更 新 参数 ， 可 以 从 当前 的 参数 中 减 去 由 这 一 批 次 数据 计算 出 的 办 
积 错 误 。 这 里 a> 0 代表 的 是 学 习 率 (leamning rate) ， 它 是 一 个 在 训练 网 
络 之 前 束 指 定好 的 实体 参数 。 


当然 ， 如 果 可 以 一 次 性 处 理 所 有 的 训练 样本 ， 那 么 获得 的 梯度 信息 





将 更 为 精确 。 我 们 分 批 次 处 理 ， 会 牺牲 计算 精度 ， 但 能 得 到 更 高 的 计算 
效率 。 由 于 选择 样本 批 次 的 过 程 是 随机 的 ， 因 此 我 们 将 这 个 方法 称 为 随 
机 梯度 下 降 。 在 普通 的 梯度 下 降 算 法 中 ， 理 论 上 能 够 保证 结果 接近 局 部 
极 小 值 ， 但 在 SGD 中 则 并 非 如 此 。 图 5-10 展 示 了 SGD 算 法 的 典型 表现 。 
近似 的 随机 梯度 中 的 一 部 分 可 能 并 不 会 指 同 下 降 方 同 ， 但 如 果 连 代 次 数 
足够 多 ， 通 常 还 是 能 接近 《局 部 ) 极 小 值 的 。 





优化 器 


计算 〈 随 机》 梯度 由 微 积分 的 基本 原理 定义 ， 而 使 用 梯度 来 更 新 参 
数 的 方式 则 不 是 这 样 。 像 SGD 更 新 规则 这 样 的 技术 称 为 优化 器 


(optimizer) 。 


还 存在 许多 其 他 优化 器 ， 以 及 更 复杂 的 随机 梯度 下 降 算 法 。 我 们 将 
在 第 7 章 介 绍 SGD 的 几 个 扩展 。 大 多 数 扩展 部 围绕 着 如 何 随 着 时 间 的 推 
移 调 整 学 习 率 ， 或 针对 单个 权重 进行 粒度 更 细 的 更 新 。 
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图 5-10 ”随机 梯度 没 那 么 精确 ， 因 此 在 损失 函数 曲面 上 跟踪 它 的 时 候 ， 可 能 会 先 走 一 些 窜 路 ， 
然后 才能 接近 局 部 极 小 值 


5.4.6 ”通过 网 络 反 向 传播 梯度 


我 们 已 经 讨论 了 如 何 使 用 随机 梯度 下 降 来 更 新 神经 网 络 的 参数 ， 但 
是 还 没有 解释 梯度 是 如 何 计算 出 来 的 。 计 算 这 些 梯度 的 算法 称 为 反问 传 
播 backpropagation) 算法 ， 在 本 书 的 附录 B 中 有 更 详尽 的 介绍 。 本 节 
将 大 致 给 出 反 辣 传播 算法 的 背景 思路 ， 并 介绍 我 们 实现 前 馈 网 络 所 必需 
的 构建 块 。 


回顾 前 面 的 内 容 ， 在 前 馈 网 络 中 我 们 实现 前 癌 传递 的 方法 是 逐个 计 
算 每 一 层 的 数据 ， 并 将 它 作 为 下 一 层 计算 的 基础 。 在 得 到 最 后 一 层 的 输 
出 即 整个 神经 网 络 的 预测 值 以 及 对 应 的 标签 之 后 ， 就 可 以 计算 出 损失 值 
了 了。 损失 函 数 本 上身 是 更 简单 函数 的 复合 composition) 。 要 计算 损失 函 
数 的 导数 ， 我 们 可 以 利用 微 积分 的 一 个 基本 属性 : 链 式 法 则 (chain 











rule) 。 这 个 法 则 大 致 的 意思 是 复合 函数 的 导数 等 于 这 些 函 数 的 导数 的 
复合 。 因 此 ， 与 前 癌 传 递 中 逐 层 传递 输入 数据 类 似 ， 我 们 可 以 反问 地 逐 
层 传递 导数 。 叶 数 沿 着 神经 网 络 辐 相反 方向 传 播 ， 因 此 这 种 算法 称 为 反 
问 传 播 所 法 。 在 图 5-11 中 ， 我 们 可 以 看 到 具有 两 个 稠密 层 和 sigmoid 激 活 
函数 的 前 馈 神 经 网 络 的 反 向 传播 示例 。 





@@ 前 向 传递 
输入 数据 ， 依 次 对 每 一 层 应 用 数学 运算 。 









@@ 更 新 权重 @@ 计算 损失 
在 第 3 步 计算 出 的 增 量 为 训练 数据 集 计算 预测 值 
可 以 用 来 调整 权重 ， 以 改善 损失 函数 。 与 真实 标签 值 之 差 。 





个 反 向 传递 : 将 误差 回馈 到 上 一 层 











从 输出 中 获取 增 量 。 计 算 与 输入 
相关 的 导数 以 获得 更 新 的 增 量 。 
将 更 新 的 增 量 传递 给 上 一 层 。 


图 5-11 有 共有 sigmoid 激 活 函 数 和 MSE 损 失 函 数 的 双 层 前 馈 神 经 网 络 中 的 前 向 传递 与 反 向 传递 过 
程 





























让 我 们 一 步 一 步 地 分 析 图 5-11 中 的 过 程 。 


(1) 前 问 传 递 训练 数据 。 在 这 一 步 中 ， 我 们 取得 输入 数据 样本 x， 
并 让 它 在 神经 网 络 中 向 前 传递 ， 最 终 得 到 输出 预测 值 ， 有 具体 如 下 所 示 。 


a， 先 计算 仿 射 线性 转换 部 分 : Wx +b。 


b. 对 上 面 的 结果 应 用 sigmoid 激 活 函 数 o(x)。 注 意 ， 这 里 为 方便 起 
见 ， 直 接 复 用 了 x 符 号 ， 之 后 也 是 如 此 ， 用 它 来 表示 每 个 计算 步骤 中 上 
一 步 结果 的 输出 值 。 





c. 重复 上 面 a 和 b 两 个 步骤 ， 直 至 最 终 的 输出 层 。 图 中 的 示例 层 数 
为 2， 在 实际 应 用 中 层 数 多 少 并 没有 影 啊 。 





(2) 评估 损失 函数 。 在 这 一 步 中 ， 需 要 获取 样本 x 对 应 的 标签 9， 
并 将 它 与 预测 值 y 进 行 比 较 ， 计 算 损 失 值 。 图 中 示例 的 损失 函数 用 的 是 
均 方 误差 范 数 。 








(3) 将 误工 项 有 反 疝 传递 回去 。 在 这 一 步 中 ， 需 要 取得 损失 值 并 将 
它 通 过 整个 网 络 反 辐 传 递 。 由 于 有 链 式 法 则 的 帮助 ， 可 以 通过 逐 层 计算 
导数 来 实现 这 个 传递 过 程 。 前 向 传递 通过 网 络 癌 前 传送 输入 数据 ， 而 肥 
回 传 递 则 是 将 误差 项 谓 相 反 的 方 辐 传递 回去 。 


a， 按 照 与 前 癌 传 递 相 反 的 方 同 传递 误 兰 项 〈 即 增 量 ， 用 A 表 示 ) 。 


b. 计算 损失 函数 的 导数 ， 它 就 是 我 们 的 初始 A。 和 前 向 传递 的 情形 
相似 ， 我 们 在 这 里 也 复 用 符号 ， 把 过 程 中 每 个 步 又 所 传播 的 误差 项 都 叫 
作 A。 


c. 计算 sigmoid 激 活 函 数 相对 于 它 的 输入 变量 的 导数 。 这 个 导数 很 
简单 ， 就 是 c<:(1-o0。 然 后 通过 逐个 元 素 相 乘 将 A 传 递 到 下 一 层 : 
a(1-o)'A。 








d， 仿 射线 性 变换 Wx + bp 对 于 变量 x 的 导数 ， 就 是 简单 的 W。 要 传递 


A， 可 以 计算 WTA 
e. 重复 b 和 c 了 两 个 步骤 ， 直 至 网 络 的 第 一 层 。 


(4) 用 梯度 信息 更 新 权重 。 流 程 的 最 后 一 步 ， 我 们 将 使 用 一 路 计 
算出 来 的 增 量 来 更 新 网 络 参数 〈 即 权重 和 偶 兰 项 ) 。 


a. sigmoid 函 数 没有 任何 参数 ， 所 以 什么 部 不 需要 做 。 


b. 每 一 层 的 偶 普 项 更 新 值 Ab 就 是 A。 





c。 某 一 层 的 权重 更 新 值 A 尔 可 以 按照 公式 A.xI 计 算 〈 在 与 增 量 相 乘 
前 需要 先 对 x 进 行 转 置 ) 。 


d. 注意 ， 我 们 在 本 例 中 是 把 x 作为 单个 样本 来 说 明 的 。 但 实际 上 前 
面 的 所 有 讨论 都 可 以 应 用 于 小 批量 样本 。 如 果 用 变量 x 来 表示 一 个 小 批 
量 〈 即 x 是 一 个 矩阵， 其 中 每 一 列 都 是 一 个 输入 向 量 ) ， 则 前 同 传递 和 
反问 传递 过 程 的 计算 也 部 仍然 是 完全 相同 的 形式 。 








现在 我 们 已 经 掌握 了 构建 和 运行 前 馈 网 络 所 需 的 全 部 数学 知识 ， 接 
下 来 我 们 把 前 面 学 到 的 理论 知识 用 于 实践 ， 并 构建 一 个 神经 网 络 。 


5.5 ”在 Python 中 逐步 训练 神经 网 络 





本 章 已 经 涵盖 了 很 多 理论 基础 ， 但 从 概念 上 讲 ， 我 们 只 需要 实现 其 
中 几 个 基本 概念 就 够 了 。 我 们 的 实现 只 需要 处 理 3 个 类 : 一 个 Layer 类 
(代表 层 的 概念 ) ; 一 个 SequentialNetwork 类 (代表 顺序 神经 网 络 


的 概念 ) ， 它 是 通过 逐个 添加 几 个 Layer 对 象 构建 的 ;一 个 需要 在 网 络 
上 进行 反 同 传播 的 Loss 类 代表 损失 函数 概念 ) 。 接 下 来 我 们 将 分 别 介 
绍 这 3 个 类 的 实现 ， 然 后 还 需要 实现 加 载 和 检查 手写 数字 数据 的 代码 ， 

之 后 就 可 以 用 神经 网 络 的 实现 来 处 理 这 些 数 据 了 。 图 5-12 展 示 了 这 几 个 
Python 类 的 组 合 方式 ， 以 及 如 何 实现 5.4.6 节 中 描述 的 前 癌 传 递 和 反 回 传 





前 向 传递 : 获取 输入 数据 并 计算 预测 值 。 


SequentialNetwork 类 


前 向 


Layer 类 

















反问 











反 向 传递 : 将 增 量 与 梯度 反 向 传播 回去 。 
图 5-12 ”前 馈 网 络 的 Python 实 现 类 。SequentialNetwork 类 的 一 个 实例 中 包含 多 个 Layer 实 
例 。 每 个 Layer 类 都 实现 了 一 个 数学 函数 及 其 导数 。forward 和 backword 方 法 分 别 实现 前 向 传 
递 和 反 向 传递 。Loss 实 例 可 以 计算 损失 函数 ， 即 预测 值 和 训练 数据 之 间 的 误差 





5.5.1 Python 中 的 神经 网 络 层 


在 实现 通用 的 Layer 类 之 前 ， 请 注意 ， 正 如 之 前 讨论 过 的 那样 ， 层 
不 仅 包 含 处 理 输入 数据 的 算法 即 前 癌 传 递 ) ， 还 需要 包含 将 误差 项 进 


行 反问 传播 的 机 制 。 为 了 在 反 辐 传递 中 不 用 重新 计算 激活 值 ， 我 们 需要 
维护 双向 传递 进出 该 层 的 数据 状态 。 理 解 了 这 一 点 ， 代 码 清单 5-11 所 示 
的 Layer 初 始 化 逻辑 应 该 就 显而易见 了 。 我 们 需要 先 创 建 一 个 层 模 鼎 ， 
然后 使 用 这 个 模块 中 的 组 件 来 构建 神经 网 络 。 





代码 清单 5-11 层 的 基本 实现 








import numpy as np 




















class Layer: <--- ”将 多 个 层 堆 营 起 来 构建 顺序 神经 网 络 
def init (self): 
self.params = [] 








self.previous = None 每 一 层 都 知道 它 的 前 一 层 (previous) 
self.next = None 以 及 它 的 后 一 层 (next) 


self.input_data = None <--- 每 一 层 都 可 以 保留 前 向 传递 中 流入 和 流 
该 层 的 数据 
self.output _ data = None 








self.input_delta = None <--- 同样 ， 每 一 层 都 可 以 保留 在 反 向 传递 中 流 
入 和 流出 该 层 的 数据 
self.output delta = None 




















每 一 层 都 具有 一 个 参数 列表 ， 用 来 存储 当前 的 输入 和 输出 数据 ， 以 
及 反 回 传递 中 相应 的 输入 和 输出 增 量 。 





此 外 ， 由 于 我 们 讨论 的 是 顺序 神经 网 络 ， 因 此 记录 每 一 层 的 后 继 层 
与 前 导 层 是 有 意义 的 。 添 加 代码 清单 5-12 所 示 的 内 容 ， 并 继续 我 们 的 定 


























代码 清单 5-12 ”通过 前 导 层 与 后 继 层 变量 来 建立 各 层 之 间 的 连接 




















def connect(self, layer): <--- 这 个 方法 将 当前 层 连接 到 它 在 顺序 网 络 中 
前 后 紧邻 区 域 


self.previous = layer 





TI 


的 





layer.next = self 


接 下 来 ， 在 抽象 的 Layer 类 中 给 前 回 传 递 和 反 辐 传递 的 操作 预 留 出 
方法 声明 ， 它 的 子 类 必须 实现 这 些 方法 ， 如 代码 清单 5-13 所 示 。 








代码 清单 5-13 ”顺序 神经 网 络 层 中 的 前 向 传递 和 反 向 传递 

















def forward(self): ¢--- 一 层 的 实现 都 必须 提供 一 个 函数 ， 用 来 传递 前 馈 输 
入 数据 


raise NotImplementedError 

















def get forward_ input(self): <--- ”第 一 层 的 ijnput_data 不 作 处 理 ， 所 有 
他 层 的 input_data 则 是 从 前 一 层 的 输出 中 获取 的 
if self.previous is not None : 
return self.previous.output data 
else: 
return self.input data 




















def backward(self): <--- ”每 一 层 必须 实现 误差 项 的 反问 传播 功能 ， 即 一 种 
过 网 络 反 辐 传递 输入 误差 的 方法 


raise NotImplementedError 


























def get backward input(self): <--- 最 后 一 层 对 输入 增 量 不 作 处 理 ， 而 所 有 
其 他 层 都 会 从 它 的 后 继 层 获取 误差 项 
if self.next is not None : 
return self.next.output delta 
else: 
return self.input delta 

















def clear deltas(self): <--- ”为 每 一 个 小 批量 的 数据 计算 各 种 增 量 并 累积 起 
来 。 在 下 一 个 小 批量 开始 时 ， 要 重 置 所 有 的 增 量 


pass 









































def update params(self, learning rate): <--- ”使 用 指定 的 learning_rat 
e〔 即 学 习 率 ) ， 根 据 当 前 的 各 种 增 量 来 更 新 当前 层 的 参数 


pass 























def describe(self): <--- Layer 的 实现 可 以 输出 它 的 各 种 属 ; 
raise NotImplementedError 








我 们 还 需要 提供 几 个 辅助 函数 。get_forward_input 和 
get_backward_input 用 来 获取 传递 过 程 中 相应 的 输入 ， 它 们 对 输入 和 


输出 神经 元 做 了 特殊 处 理 。 除 此 之 外 还 需要 实现 一 个 clear_deltas 方 
法 ， 用 来 在 每 处 理 完 一 个 小 批量 的 样本 增 量 之 后 ， 周 期 化 地 重 置 所 有 增 
量 。 另 外 还 有 一 个 update_params 方 法 ， 在 神经 网 络 告知 当前 层 需 要 更 
新 参数 时 ， 它 负责 对 当前 层 的 参数 进行 更 新 。 








注意 ， 最 后 我 们 还 为 Layer 添 加 了 一 个 输出 描述 目 身 状态 的 方法 。 
有 了 它 我 们 就 可 以 更 轻松 地 掌握 神经 网 络 的 状态 了 。 


5.5.2 ”神经 网 络 中 的 激活 层 
接 下 来 ， 我 们 将 实现 第 一 个 层 ， 即 ActivationLayer (激活 


层 ) 。 我 们 将 使 用 前 面 已 经 实现 的 sigmoid 激 活 函 数 。 反 向 传播 需要 这 
个 函数 的 导数 ， 但 实现 它 并 不 困难 ， 如 代码 清单 5-14 所 示 。 





代码 清单 5-14 ”实现 sigmoid 激 活 函 数 的 导数 


def sigmoid prime double(x): 
return sigmoid double(x) * (1 - sigmoid double(x)) 


def sigmoid prime(z): 
return np.vectorize(sigmoid prime double)(z) 





注意 ， 和 sigmoid 激 活 函数 一 样 ， 它 的 导数 也 要 提供 标量 和 向 量 两 
个 版 本 。 现 在 我 们 定义 一 个 使 用 sigmoid 激 活 函数 作为 内 置 激活 函数 的 
激活 层 ActivationLayer， 如 代码 清单 5-15 所 示 。 注 意 ，sigmoid 激 活 
函数 没有 任何 参数 ， 因 此 不 需要 考虑 更 新 参数 的 操作 。 





代码 清单 5-15 sigmoid 激 活 层 




















class ActivationLayer(Layer): <--- 这 个 激活 层 使 用 sigmoid 激 活 函 数 来 激活 神 
经 元 
def init (self, input_ dim): 
super(ActivationLayer, self). init () 





self.input dim = input dim 
self.output dim = input dim 


def forward(self): 
data = self.get forward input() 
self.output data = sigmoid(data) 递 只 需要 将 sigmoid 激 
活 函 数 应 用 于 输入 数据 即 可 








def backward(self): 

delta = self.get backward input() 

data = self.get forward input() 

self.output delta = delta * sigmoid prime(data) <--- ”反问 传递 则 
要 将 输入 数据 的 sigmoid 激 活 函数 的 导数 与 误差 项 进行 逐个 元 素 相 乘 


def describe(self) : 
print("|-- " + self. class . name ) 
print(" |-- dimensions: ({},{})" 
.format(self.input dim, self.output dim)) 














仔细 检查 梯度 的 实现 ， 看 看 它 是 不 是 符合 图 5-11 中 的 描述 。 对 于 这 
个 激活 层 ， lo 
活 函 数 的 导数 进行 逐个 元 素 相 习 即 可 : o(x) : (1 -olx)) :A。 





5.5.3 ”在 Python 中 实现 稠密 层 





现在 继续 我 们 的 代码 实现 ， 下 一 个 要 实现 的 层 是 DenseLayer， 即 
稠密 层 ， 它 是 前 馈 神 经 网 络 的 构建 块 。 这 个 层 比 前 面 的 激活 层 更 加 复 
是 本 章 要 讨论 的 最 后 一 个 层 实 现 。 笛 密 层 初始 化 时 需要 更 多 的 变 
量 ， 因 为 我 们 需要 处 理 权重 窍 阵 、 侦 差 项 以 及 它们 各 自 的 梯度 ， 如 代码 
清单 5-16 所 示 。 


发 


同和? 


代码 清单 5-16 ”稠密 层 权重 初始 化 


class DenseLayer(Layer) : 


def _ init (self, input dim, output dim): <--- 稠密 层 需要 指定 输入 和 
输出 的 维度 


super(DenseLayer, self). init () 


self.input dim = input _ dim 
self.output dim = output dim 


self.weight = np.random.randn(output _ dim, input dim) <--- ”随机 
初始 化 权重 矩阵 和 偏差 项 向 量 

self.bias = np.random.randn(output dim, 1) 

self.params = [self.weight, self.bias] <--- ” 层 参 数 包括 权重 和 偏差 











项 


self.delta w = np.zeros(self.weight.shape) <--- ”权重 和 偏差 项 的 
增 量 设置 为 6 
self.delta b = np.zeros(self.bias.shape) 








注意 ， 这 里 我 们 对 W 和 b 进 行 了 随机 的 初始 化 。 神 经 网 络 的 权重 初 
始 化 其 实 有 许多 方法 。 随 机 初始 化 是 一 个 可 以 接受 的 基线 ， 但 其 实 有 很 
多 更 复杂 的 初始 化 方法 可 以 更 准确 地 反映 输入 数据 的 结构 。 


参数 初始 化 作为 优化 的 起 点 


初始 化 参数 是 一 个 有 趣 的 话题 ， 我 们 将 在 第 6 章 讨 论 其 他 几 种 初始 
化 技术 。 


现在 你 只 要 记 住 初始 化 会 影响 学 习 行 为 即 可 。 如 果 考 虑 图 5-10 所 示 
的 损失 曲面 ， 参 数 的 初始 化 意味 独 在 曲面 上 选择 一 个 起 点 进行 优化 ， 所 
以 应 当 可 以 很 容易 地 想象 到 ， 在 图 5-10 所 示 的 损失 曲面 上 SGD 采 用 不 同 








起 点 可 能 会 导致 不 同 的 结果 。 这 使 得 初始 化 成 为 神经 网 络 研究 中 的 一 个 
重要 课题 。 


现在 稠密 层 的 前 向 传递 实现 束 很 简单 了 ， 如 代码 清单 5-17 所 示 。 


代码 清单 5-17 稠密 层 的 前 问 传 递 





def forward(self): <--- 稠密 层 的 前 向 传递 就 是 对 输入 数据 的 仿 射 线性 变换 ， 
而 输入 数据 由 权重 和 偏差 项 定义 





data = self.get forward input() 
self.output data = np.dot(self.weight, data) + self.bias 





人 至 于 反 加 传递， 回想 一 下 ， 要 计算 当前 层 的 增 量 ， 只 需要 转 置 W 并 
将 其 乘 以 传 入 的 增 量 即 可 : WIA。W 和 1 的 梯度 也 很 容易 计算 : AW = 
Ay'， 以 及 Ab =A， 其 中 表示 该 层 的 输入 《由 当前 使 用 的 样本 数据 计算 
而 出 ) 。 笛 密 层 的 反 辐 传递 实现 如 代码 清单 5-18 所 示 。 


代码 清单 5-18 和 砚 密 层 的 反 辐 传递 





def backward(self): 
data = self.get forward input() 
delta = self.get backward input() <--- ”要 进行 反问 传递 ， 首 先 要 获 
取 输 入 数据 和 增 量 




















self.delta b += delta <--- 将 当前 增 量 加 到 偏差 项 扫 




















self.delta w += np.dot(delta，data.transpose()) 然后 将 这 一 
项 加 到 权重 增 量 上 





self.output delta = np.dot(self.weight.transpose(), delta) 
最 后 ， 将 输出 增 量 传递 到 前 一 层 ， 完 成 反 向 传递 























本 层 的 更 新 规则 是 根据 我 们 为 网 络 指 定 的 学 习 率 来 累加 增 量 ， 如 代 


码 清 单 5-19 所 示 。 








代码 清单 5-19 ”稠密 层 权 重 更 新 机 制 





























def update_params(self，rate): 使 用 权重 和 偏差 项 增 量 ， 可 以 通过 梯度 下 降 来 更 
新 模型 参数 
self.weight -= rate * self.delta w 
self.bias -= rate * self.delta b 























def clear deltas(self): <--- 更 新 参数 后 ， 应 当 习 











self.delta w = np.zeros(self.weight.shape) 
self.delta b = np.zeros(self.bias.shape) 


def describe(self): <--- ”稠密 层 可 以 通过 它 的 输入 和 输出 维度 来 描述 
print("|--- "+ self. class . name ) 
print(" |-- dimensions: ({},{})" 
.format(self.input dim, self.output dim)) 








5.5.4 Python 顺序 神经 网 络 





现在 我 们 已 经 实现 了 神经 网 络 的 构建 块 ， 接 大 转 向 神经 网 络 本 里 。 
要 初始 化 顺序 神经 网 络 ， 可 以 给 它 设 置 一 个 空 的 层 列表 ， 如 代码 清单 5- 
20 所 示 。 如 果 没 有 特别 指定 的 话 ， 默 认 使 用 MSE 作 为 损失 函数 。 








代码 清单 5-20 ”初始 化 顺序 神经 网 络 









































class SequentialNetwork: <--- 在 顺序 神经 网 络 中 ， 可 以 按 顺 序 埃 
def _ init (self, loss=None): 
print("Initialize Network...") 


self.layers = [|] 
if loss is None: 
self.loss = MSE() <--- 如 果 没 有 提供 损失 函数 ， 则 默认 使 用 MsE 








接 下 来 ， 我 们 为 顺序 神经 网 络 增加 函数 ， 实 现 逐 个 添加 层 的 功能 ， 
如 代码 清单 5-21 所 示 。 














代码 清单 5-21 ” 按 顺 序 添加 层 








def add(self, layer): <--- 每 添加 一 层 ， 都 需要 将 它 与 前 导 层 连接 起 来 ， 并 
输出 层 的 描述 
self.1layers.append(1layer) 


1ayer.describe() 
if len(self.layers) > 1: 
self.1layers[-1].connect(self.1ayers[-2]) 





神经 网 络 实现 的 核心 方法 是 训练 方法 。 我 们 使 用 小 批量 数据 作为 网 
络 的 输入 : 将 训练 数据 混 洗 ， 并 将 它 为 拆 分 尺寸 为 mini_batch_size 
的 多 个 小 批量 。 在 训练 网 络 的 时 候 ， 可 以 分 批 、 逐 个 、 小 批量 地 回 它 输 
送 数据 。 为 了 改善 学 习 效 末 ， 这 种 多 批 次 的 训练 需要 反复 进行 多 次 。 我 
们 把 每 一 轮 多 批 次 训练 称 为 一 个 训练 欠 代 周期 (epoch) 。 对 每 个 小 批 
量 数据 ， 需 要 调用 train_batch 方 法 。 如 果 初 始 化 时 提供 了 
test_data， 则 需要 在 每 一 个 训练 欠 代 周期 结束 之 后 评估 网 络 的 表现 。 
顺序 神经 网 络 上 的 train 方 法 如 代码 清单 5-22 所 示 。 





























代码 清单 5-22 ”顺序 神经 网 络 上 的 训练 方法 








def train(self, training data, epochs, mini batch size, 
learning rate, test data=None): 
n = len(training data) 
for epoch in range(epochs): <--- 要 训练 网 络 ， 需 要 依照 迭代 周期 来 多 
次 传 入 数据 集 


random.shuffle(training_data) 








mini batches = [ 
training data[k:k + mini batch size] for 





k in range(0, n, mini batch size) <--- ” 混 洗 训练 数据 ， 创 
建 多 个 小 批量 
] 
for mini batch in mini batches: 
self.train batch(mini batch, learning_rate) <--- 对 每 


个 小 批量 训练 网 络 
if test data: 
n test = len(test data) 


print("Epoch {06}: {1} / {2}" 
.format(epoch, self.evaluate(test data), n_ test)) 
<--- 如 果 提 供 了 测试 数据 ， 就 应 当 在 每 个 训练 迭代 周期 结束 后 评估 网 络 
else: 
print("Epoch {6} complete".format(epoch)) 














接 下 来 ，train_batch 方 法 用 于 计算 一 个 小 批量 的 前 同 传 递 和 反问 
传递 ， 然 后 更 新 参数 ， 如 代码 清单 5-23 所 示 。 














代码 清单 5-23 ”对 一 个 小 批量 数据 进行 顺序 神经 网 络 训练 











def train batch(self, mini batch, learning rate): 
self.forward backward(mini batch) <--- 要 对 一 个 小 批量 数据 进行 网 
络 的 训练 ， 需 要 计算 其 前 向 传递 和 反 向 传递 





























self.update(mini_batch，1learning_rate) 并 根据 结果 更 新 模型 








update 和 forward_backward 可 以 通过 代码 清单 5-24 所 示 的 方式 来 
计算 。 








代码 清单 5-24 ”网 络 的 更 新 规则 ， 以 及 前 向 传递 与 反问 传递 








def update(self, mini batch, learning rate): 
learning rate = learning rate / len(mini batch) <--- 用 小 批量 尺 

















二 来 归 一 化 学 习 率 是 一 个 常见 技巧 
for layer in self.1layers: 
layer.update params (learning_ rate) <--- 更 新 所 有 层 的 参数 
for layer in self.1layers: 
layer.clear deltas() <--- ”清除 每 一 层 中 的 所 有 增 量 






































def forward backward(self, mini batch): 
for x, y in mini batch: 
Self.1layers[6].input_ data = x 
for layer in self.1layers: 
layer .forward() <--- ”对 于 小 批量 中 的 每 个 样本 ， 逐 层 疝 前 传递 





T 





特征 
self.layers[-1].input _ delta = \ 
self.1loss.l1oss derivative(self.layers[-1].output data, y) 
<--- 计算 输出 数据 的 损失 导数 


for layer in Feversed(self.1ayers ) : 





layer.backward() <--- 将 误差 项 逐 层 反 辐 传播 














上 面 实现 的 逻辑 很 直观 ， 但 有 几 点 需要 注意 。 首 先 ， 我 们 可 以 用 小 
批量 尺寸 来 归 一 化 学 习 率 ， 以 控制 更 新 的 规模 。 其 次 ， 在 反问 传递 之 
前 ， 得 先 计 算 网 络 输出 的 损失 导数 ， 并 把 结果 作为 反 回 传递 的 第 一 个 输 


入 增 量 。 


现在 ，SequentialNetwork 的 实现 只 剩 下 模型 性 能 与 评估 相关 的 
部 分 没有 完成 了 。 要 在 测试 数据 上 对 网 络 进 行 评 估 ， 需 要 向 网 络 输送 测 
试 数据 ， 前 向 传递 并 通过 整个 网 络 ， 这 个 功能 由 single_forward 方 法 
完成 。 真 正 的 评估 是 在 evaluate 方 法 中 进行 的 ， 它 将 返回 预测 结果 中 
正确 的 数量 ， 并 评估 预测 的 准确 性 。 评 估 的 实现 如 代码 清单 5-25 所 示 。 











代码 清单 5-25 ”评估 


























def single forward(self, x): <--- 前 向 传递 单个 样本 数据 ， 并 返回 
Self.1layers[6].input_ data = x 
for layer in self.1layers: 
layer .forward() 
return self.layers[-1].output data 














evaluate(self, test data): <--- ”计算 测试 数据 上 的 预测 准确 率 
test results = [( 
np.argmax(self.single forward(x)), 
np.argmax(y) 
) for (x, y) in test datal] 
return sum(int(x == y) for (x, y) in test results) 





5.5.5 ”将 网 络 集成 到 手写 数字 分 类 应 用 中 


实现 了 前 饥 网 络 之 后 ， 让 我 们 回 到 最 初 的 用 例 : 预测 MNIST 数 据 集 
中 的 手写 数字 。 在 导入 前 面 实现 的 必要 类 之 后 ， 我 们 就 可 以 加 载 MNIST 





数据 ， 初 始 化 网 络 ， 添 加 各 个 层 ， 然 后 使 用 数据 训练 和 评估 网 络 了 。 


现在 开始 构建 网 络 。 首 先 记 住 输入 维度 为 784、 输 出 维度 为 10〔 对 
应 10 个 数字 ) 。 我 们 可 以 选取 3 个 稠密 层 ， 输 出 维度 分 别 为 392、196 和 
10， 并 在 每 个 层 之 后 添加 sigmoid 激 活 函数 ;3 个 稠密 层 ， 每 一 层 的 维度 
都 减 半 ， 如 代码 清单 5-26 所 示 。 这 里 我 们 用 到 的 神经 网 络 层 的 数量 和 每 
一 层 的 尺寸 数据 ， 称 为 超人 参数 (hyperparameter) 。 网 络 的 架构 就 是 由 
这 些 超 参 数 设置 的 。 我 们 鼓励 读者 尝试 其 他 的 层 尺 寸 ， 以 便 更 直观 地 感 
受 网 络 学 习 的 过 程 与 它 的 架构 之 间 的 关联 。 











代码 清单 5-26 ”实例 化 一 个 神经 网 络 





from dlgo.nn import load mnist 
from dlgo.nn import network 
from dlgo.nn.layers import DenseLayer, ActivationLayer 


training data, test data = load mnist.1load data() <--- ”加 载 训 练 数据 和 测 
试 数据 


net = network.SequentialNetwork() <--- 初始 化 顺序 神经 网 络 


net.add(DenseLayer(784, 392)) <--- 然后 可 以 逐个 添加 稠密 层 与 激活 层 
net.add(ActivationLayer(392) ) 

net.add(DenseLayer(392，196)) 

net.add(ActivationLayer(196)) 

net.add(DenseLayer(196, 10)) 


net.add(ActivationLayer (10)) <--- ”最 后 一 层 的 维度 为 .09， 即 要 预测 的 类 别 数量 





























要 让 网 络 开 始 执行 数据 的 训练 ， 读 者 可 以 调用 train 方 法 ， 并 传 入 
所 有 必要 的 参数 ， 可 以 尝试 将 训练 达 代 周期 数 设 为 10， 将 学 习 率 设 为 
3.0， 将 小 批量 尺寸 设 为 10， 正 好 与 结果 的 类 别 数量 相同 ， 如 代码 清单 5- 
27 所 示 。 如 果 能 对 训练 数据 做 出 近 于 完美 的 混 洗 ， 那 么 大 多 数 小 批量 中 
都 会 包含 全 部 类 别 ， 从 而 能 够 产生 展 好 的 随机 梯度 。 











代码 清单 5-27 在 训练 数据 上 运行 神经 网 络 实例 














net.train(training data, epochs=16, mini batch size=10, 


learning rate=3.0, test data=test data) <--- 现在 可 以 通过 指定 
训练 数据 和 测试 数据 、 训 练 的 迭代 周期 数 、 小 批量 的 尺寸 以 及 学 习 率 ， 来 轻松 地 训练 模型 了 


























接着 在 命令 行 中 执行 : 


这 个 命令 会 生成 以 下 输出 ， 


Initialize Network... 
|--- DenseLayer 

|-- dimensions: (784,392) 
|-- ActivationLayer 

|-- dimensions: (392,192) 
|--- DenseLayer 


|-- dimensions: (192,16) 
|-- ActivationLayer 

|-- dimensions: (16,16) 
Epoch 6: 6628 / 16666 
Epoch 1: 7552 / 16666 





训练 的 结果 高 度 依赖 初始 化 时 选取 的 权重 ， 但 每 一 个 训练 欠 代 周期 
的 具体 结果 数值 并 不 重要 。 值 得 注意 的 是 ， 一 般 来 说 经 过 不 到 10 个 达 代 
周期 就 能 达到 95% 以 上 的 准确 率 。 考 虑 到 我 们 的 代码 是 完全 从 零 开始 开 
发 的 ， 这 已 经 是 一 个 相当 好 的 结果 了 。 而 且 这 个 模型 的 结果 比 本 章 开 始 
实现 的 简单 模型 要 好 得 多 。 但 我 们 还 可 以 做 得 更 好 。 











注意 ， 对 本 间 所 研究 的 用 例 来 说 ， 我 们 完全 忽略 了 输入 图 像 的 空间 
结构 ， 而 将 它 看 作 简 单 的 向 量 。 但 应 该 说 明 清 楚 的 是 ， 给 定 像素 的 临近 
区 域 仍然 是 有 利用 价值 的 重要 人 信息。 而且， 我 们 最 终 还 是 要 回 到 围棋 游 














戏 的 ， 而 第 2 草 和 第 3 章 中 已 经 可 以 看 到 ， 在 围棋 中 ， 棋 子 〈 或 棋 链 ) 的 
邻近 区 域 是 多 么 的 重要 。 


第 6 章 将 介绍 如 何 实现 一 个 特别 的 神经 网 络 ， 它 更 适用 于 探查 网 像 
或 围棋 棋盘 这 类 空间 数据 中 的 模式 。 有 了 它 ， 我 们 就 能 再 前 进一步 ， 并 
在 第 7 章 中 介绍 开 及 围棋 机 器 人 的 内 容 。 


5.6 小结 


。 顺序 神经 网 络 是 一 个 简单 的 人 工 神 经 网 络 ， 由 多 个 层 线性 堆 琶 而 
成 。 神 经 网 络 可 以 应 用 到 各 种 机 器 学 习 问 题 中 ， 包 括 图 像 识别 问 
题 。 

二 馈 网 络 是 由 有 具有 激活 函数 的 秽 密 层 所 组 成 的 顺序 神经 网 络 。 
损失 函数 用 于 评估 预测 的 质量 。 均 方 误差 是 实践 中 最 常见 的 损失 函 
数 之 一 。 损 失 函 数 为 衡量 模型 的 准确 性 提供 了 一 种 严格 的 方法 。 
柳 度 下 降 算 法 是 一 种 求 函 数 极 小 值 的 算法 。 梯 度 下 降 算 法 会 跟踪 函 
数 中 最 陡峭 的 糙 率 。 在 机 器 学 习 中 ， 使 用 梯度 下 降 算 法 来 得 找 能 获 
得 最 小 损失 的 模型 权重 。 

随机 梯度 下 降 算 法 是 梯度 下 降 算 法 的 一 种 变 体 。 在 随机 梯度 下 降 算 
法 中 ， 可 以 在 训练 集 的 一 小 部 分 数据 《〈 称 为 一 个 小 批量 ) 上 计算 标 
度 ， 然 后 根据 每 个 小 批量 数据 来 更 新 网 络 权重 。 在 大 型 训练 集 上 ， 
随机 梯度 下 降 算法 往往 比 常规 梯度 下 降 算法 要 快 得 多 。 

在 顺序 神经 网 络 中 ， 可 以 使 用 反问 传播 算法 来 高 效 地 计算 梯度 。 反 
加 传播 和 小 批量 的 组 合 使 得 训练 足够 快 ， 可 以 应 用 在 大 型 数据 集 
i 











第 6 草 ” 为 围棋 数据 谈 计 神经 网 络 


本 章 主要 内 容 





。 构建 一 个 深度 学 习 应 用 ， 可 以 根据 数据 预测 围棋 的 下 一 步 动作 。 
。 介绍 Keras 深 度 学 习 框架 。 
。 了 解 卷 积 神经 网 络 。 


。 构建 能 够 分 析 围 棋 空间 数据 的 神经 网 络 。 





在 第 5 章 中 ， 我 们 已 经 初步 了 解 了 神经 网 络 的 基本 诛 理 ， 并 从 零 开 
台 实 现 了 一 个 前 馈 神 经 网 络 。 在 本 章 中 ， 我 们 将 把 注意 力 转 回 围棋 游 
戏 ， 并 解决 如 何 使 用 深度 学 习 拉 术 来 预测 围棋 游戏 中 任意 给 定 棋 局 的 下 
一 步 动作 的 问题 。 特 别 地 ， 我 们 将 使 用 第 4 章 开 发 的 树 搜索 技术 来 生成 
围棋 游戏 数据 ， 然 后 用 它们 来 训练 神经 网 络 。 图 6-1 是 我 们 将 在 本 章 中 
构建 的 应 用 的 概览 。 


如 图 6-1 所 示 ， 要 利用 好 第 5 章 中 介绍 的 神经 网 络 知 识 ， 必 须 先 解决 
以 下 几 个 关键 步骤 。 


用 于 预测 围棋 动作 的 深度 学 习 算法 


当前 的 棋局 下 一 回合 的 棋局 
入 ;- 本 ” 尼 , 羽 胃 A BB CD EE 
i . 0 em :二 如 果 预 测 的 动作 是 5 
, le 对 黑 方 进行 打 吃 ， 4 4 
， 此 时 黑 方 应 当 如 中 ， 黑 声 旋 掉 一 显 3 ， 
。 何 回应 ? 白 子 ， 从 而 逃离 了 ， 
2 2 被 打 吃 的 境地 。 
1 1 1 1 
A BD 区 A BB CC DPD E 
下 一 步 动作 ， 需 | 
先 将 棋局 转换 为 能 。 @ 将 这 个 输入 矩阵 展 平成 向 量 ， 
够 输送 给 神经 网 络 然后 就 可 以 把 它 输送 给 第 5 章 
的 形式 。 中 介绍 的 前 馈 神经 网 络 了 。 
编码 
棋盘 数据 
将 预测 的 动作 
@ 将 黑子 编码 为 1， @ 将 神经 网 络 的 输出 应 用 到 棋盘 
白 子 编码 为-， 设置 为 能 够 用 于 预 
而 空 点 为 0。 测 一 步 棋盘 动作 的 
7 形式 。 
z x 了 a 
A 
FIZ 





输送 到 网 络 








图 6-1 如 何 使 用 深度 学 习 预 测 围棋 游戏 中 的 下 一 步 动作 








(1) 在 第 3 草 中 ， 我 们 专注 于 如 何 教 计算 机 学 会 于 棋 规 则 ， 并 在 棋 
盘 上 实现 对 弈 逻辑 。 第 4 章 使 用 这 些 数据 结构 进行 树 搜索 。 在 第 5 章 中 我 
们 看 到 ， 神 经 网 络 需 要 的 是 数值 输入 ， 具 体 到 我 们 所 实现 的 前 馈 网 络 染 
构 ， 它 需要 的 是 问 量 。 














(2) 为 了 能 够 输送 到 神经 网 络 中 ， 需 要 将 围棋 的 棋局 转换 为 输入 
问 量 。 我 们 必须 先 创建 一 个 编码 器 (encoder) 来 完成 这 个 转换 工作 。 
图 6-1 绘 制 的 是 一 个 简单 的 编码 器 ， 我 们 将 在 6.1 节 中 实现 它 。 这 个 编码 
颖 可 以 将 棋盘 编码 成 相同 尺寸 的 算 了 泗 ， 其 中 日 子 表 示 为 -1， 黑 子 表 示 为 
1， 空 点 表示 为 0。 和 前 面 间 节 中 提 到 的 MNIST 数 据 类 似 ， 把 这 个 矩阵 展 








平 就 可 以 变换 成 一 个 同 量 。 虽 然 这 种 表达 方式 过 于 简单 ， 无 法 提供 民 好 
的 动作 预测 结果 ， 但 它 朝 看 正确 方 回 近 出 了 第 一 步 。 第 7 半 将 介绍 更 复 
杂 、 更 有 效 的 棋盘 编码 方法 。 











(3) 要 训练 神经 网 络 来 预测 落 子 动作 ， 首 先 必 须 准 备 好 用 于 输入 
网 络 的 数据 。 在 6.2 节 中 ， 我 们 将 学 习 如 何 利 用 第 4 章 中 的 技巧 来 生成 棋 
详 。 每 一 个 讨论 过 的 棋局 部 要 进行 编码 ， 并 转换 为 神经 网 络 的 训练 特 
征 ， 而 棋盘 的 下 一 步 动作 ， 则 作为 训练 标签 使 用 。 











(4) 虽然 像 第 5 和 章 那 样 自 己 实现 神经 网 络 很 有 用 ， 但 本 章 我 们 将 引 
入 更 成 熟 的 深度 学 习 库 以 得 到 更 快 的 速度 和 更 高 的 可 靠 性 。6.3 市 将 介 
绍 Keras， 它 是 一 个 流行 的 Python 深度 学 习 库 。 我 们 将 使 用 Keras 建 立 神 
经 网 络 模型 ， 并 预测 沙子 动作 。 


(5) 此 时 读者 可 能 会 党 得 奇怪 ， 为 什么 要 把 棋盘 矩阵 展 平成 问 
量 ， 完 全 丢弃 围棋 棋盘 的 空间 结构 呢 ? 在 6.4 节 中 ， 我 们 将 了 解 一 种 称 
为 知 积 层 〈convolutional layer) 的 新 网 络 层 类 型 ， 它 更 适合 围棋 的 应 用 
场景 。 我 们 将 使 用 卷 积 层 来 构建 一 种 称 为 卷 积 神经 网 络 〈Convolutional 
Neural Network，CNN) 的 新 网 络 架 构 。 














(6) 在 本 章 的 最 后 部 分 ， 我 们 将 了 解 更 多 现代 深度 学 习 的 关键 概 
念 ， 它 们 能 帮助 我 们 进一步 提高 预测 落 子 动作 的 准确 性 。 例 如 ，6.5 节 
会 使 用 softmax 更 有 效 地 预测 概率 ; 6.6 节 会 用 一 种 称 为 线性 整流 单元 
(Rectified Linear Unit，ReLU) 的 有 趣 函 数 作为 激活 函数 ， 来 构建 更 深 
层次 的 深度 神经 网 络 。 


6.1 为 神经 网 络 编码 围棋 棋局 


在 第 3 章 中 我 们 构建 了 一 个 Python 类 库 ， 它 包含 了 围棋 游戏 中 的 所 
有 实体 : Player、Board、GameState 等 。 现 在 我 们 想 要 把 机 器 学 习 应 
用 到 围棋 问题 中 ， 但 神经 网 络 这 类 数学 模型 无 法 像 GameSstate 类 那样 直 
接 处 理 高 级 抽象 对 象 ， 而 只 能 处 理 同 量 或 第 阵 之 类 的 数学 对 象 。 在 本 节 
中 我 们 将 创建 一 个 Encoder 类 ， 它 可 以 将 围棋 游戏 对 象 转换 为 某 种 数学 
形式 。 之 后 ， 我 们 就 能 够 把 这 种 数学 表示 形式 的 数据 输送 给 机 器 学 习 工 
= 


要 构建 一 个 深度 学 习 模 型 来 预测 围棋 落 子 动作 ， 第 一 步 要 加 载 能 够 
输送 给 神经 网 络 的 数据 。 要 实现 这 一 点 ， 可 以 给 围棋 棋盘 定义 一 个 简单 
的 编码 硕 ， 如 图 6-1 所 示 。 编 码 器 是 一 种 以 适当 的 方式 转换 第 3 章 中 实现 
的 围棋 棋盘 的 方法 。 前 面 介绍 过 ， 多 层 感 知 机 的 输入 形式 是 向量 ， 而 在 
6.4 节 中 我 们 将 看 到 妃 一 种 运行 在 更 高 维 数据 上 的 网 络 杂 构 。 图 6-2 展 示 
了 如 何 定义 这 类 编码 顺 的 思路 。 





00 0 0 0 
(HO 0 0 a 元 
@O  — 人 0 入 浊 池河 
@@ 00 1 1 0 
00 0 0 0 

GameState 实 例 NumPy 数 组 


图 6-2 编码 器 Encoder 类 的 图 示 。 它 接收 GameState 类 实例 并 将 其 转换 为 数学 形式 ， 即 一 
个 NumPy 数 组 


编码 器 的 核心 在 于 如 何 编码 完整 的 游戏 状态 。 特 别 地 ， 它 应 当 定 义 
如 何 编码 棋盘 上 的 单个 点 。 有 时 候 ， 与 编码 相反 的 过 程 也 很 有 意思 : 如 





果 已 经 用 神经 网 络 预测 出 下 一 手 落 子 动作 ， 而 这 个 动作 是 已 编码 的 ， 就 
需要 把 它 转 换 回 棋 盘 上 的 实际 落 子 动作 。 这 个 反 向 操作 称 为 解 钼 ， 它 是 
应 用 预测 动作 不 可 或 缺 的 过 程 。 





厘清 了 思路 ， 现 在 就 可 以 定义 Encoder 类 了 。 这 个 类 是 本 章 和 第 7 
章 里 创建 的 各 种 编码 器 的 通用 接口 。 pon 外 多 
为 encoders 的 新 模块 ， 以 及 一 个 空 的 _init_.py 初 始 化 文件 ， 并 在 模块 
中 放 入 文件 base.py。 然 后 ， 在 这 个 文件 中 输入 代码 清单 6-1 所 示 的 定 
Xs 





























代码 清单 6-1 用 于 编码 围棋 游戏 状态 的 抽象 Encoder 类 








class Encoder: 


def name(self): <--- ”让 我 们 把 模型 正在 使 用 的 编码 器 名 称 输出 到 日 志 中 或 存 
储 下 来 
































raise NotImplementedError() 














def encode(self, game state): <--- ”将 围棋 棋盘 转换 为 数值 数据 


raise NotImplementedError() 








def encode point(self, point): <--- ”将 棋盘 上 的 一 个 交叉 点 转换 为 一 个 整 
数 索 引 


raise NotImplementedError() 





def decode point index(self, index): <--- 将 整数 索引 转换 回 围棋 棋盘 
的 交叉 点 


raise NotImplementedError() 








def num points(self): <--- 棋盘 上 交叉 点 的 总 数 ， 即 棋盘 宽度 乘 以 棋盘 高 度 
raise NotImplementedError() 








shape (self): <--- 棋盘 结构 编码 后 的 形状 


raise NotImplementedError() 





编码 器 的 定义 很 简单 ， 但 我 们 还 想 在 base.py 文 件 中 添加 一 个 便利 功 
: 一 个 根据 名 称 字符 串 来 创建 编码 器 的 函数 〈 如 代码 清单 6-2 所 





ZN 
CC 


示 ) 。 这 样 就 不 需要 显 式 地 创建 编码 器 对 象 了 。 把 这 
个 get_encoder_by_name 函 数 附 加 在 编码 器 定义 的 后 面 。 








代码 清单 6-2” 按 名 称 创建 围棋 棋盘 编码 器 


import import1ib 


def get_encoder_by_name(name，board_size): <--- 可 以 根据 编码 器 的 名 称 来 创 
建 它 的 实例 


if isinstance(board size, int): 





board _ size = (board size, board _ size) <--- 如 果 board_size 是 一 个 
整数 ， 则 依据 这 个 尺寸 创建 一 个 正方 形 棋盘 
module = importlib.import module('dlgo.encoders.' + name) 
constructor = getattr(module, 'create') <--- 每 个 编码 器 的 实现 类 都 必 
须 提供 一 个 “create” 函 数 来 创建 新 实例 


return constructor(board size) 














现在 我 们 已 经 对 编码 器 有 了 初步 了 解 ， 也 知道 了 如 何 创建 编码 器 
接着 就 可 以 去 实现 图 6-2 中 的 想法 ， 制 作 第 一 个 编码 器 : 黑白 双方 一 方 
表示 为 1， 0 而 空 点 表示 为 0。 为 了 做 出 准确 的 预测 ， 这 
个 模型 还 需要 知道 下 一 回合 的 执 子 方 。 因 此 ， 我 们 用 1 来 表示 下 一 回合 
ae -1 表示 其 对 手 方 ， 而 不 是 固定 用 1 表示 黑 方 、-1 表 示 白 方 。 
由 于 我 们 将 围棋 棋盘 编码 为 与 棋盘 斥 寸 相同 的 单个 矩阵 《〈 即 一 个 特征 平 
面 )， 因 此 可 以 将 这 个 编码 器 称 为 OnePlaneEncoder。 在 第 7 章 中 ,我 
们 还 会 看 到 具有 多 个 特征 平面 〈feature plane) 的 编码 器 ， 例 如 我 们 将 
实现 一 个 具有 3 个 平面 的 编码 器 ， 它 用 一 个 平面 来 表示 黑 方 的 棋盘 布 
局 ， 用 另 一 个 平面 来 表示 白 方 的 棋盘 布局 ， 还 有 一 个 平面 表示 劫 争 。 本 
章 我 们 暂时 沿用 简单 的 单 平面 思路 ， 在 oneplane.py 文 件 中 加 以 实现 。 代 
码 清 单 6-3 展 示 了 实现 的 第 一 部 分 。 












































代码 清单 6-3 ”使 用 简单 的 单 平面 围棋 棋盘 编码 器 对 游戏 状态 进行 编码 




















import numpy as np 


from dlgo.encoders.base import Encoder 
from dlgo.goboard import Point 


class OnePlaneEncoder(Encoder) : 
def _init (self, board size) : 
self.board width, self.board height = board size 
self.num planes = 1 




















def name(self): <--- ”可 以 用 名 称 “oneplane” 来 指 代 这 个 编码 器 
return ‘oneplane' 








def encode(self, game state): <--- 编码 逻辑 : 对 于 棋盘 上 每 一 个 交叉 点 ， 
如 果 该 点 落下 的 是 当前 执 子 方 的 棋子 ， 则 在 矩阵 中 填充 1， 如 果 是 对 手 方 的 棋子 ， 则 填充 -1; 
如 果 该 点 为 空 点 ， 则 填充 6 
board matrix = np.zeros(self.shape()) 
next_ player = game state.next player 
for r in range(self.board height): 
for c in range(self.board width): 
p = Point(row=r + 1, col=c + 1) 
go_string = game_state.board.get go_ string(p) 
if go_string is None : 
continue 
if go_string.color == next player: 
board matrix[6, r, c] = 1 
else: 
board matrix[6, r, c] = -1 
return board matrix 





















































接 独 是 定义 的 第 二 部 分 ， 将 完成 对 棋盘 上 的 单个 交叉 点 进行 编码 和 
解码 的 工作 。 如 代码 清单 6-4 所 示 ， 编 码 过 程 将 棋盘 上 的 交叉 点 映射 到 
斥 二 为 棋盘 宽度 乘 以 高 度 的 问 量 ， 而 解码 过 程 则 是 从 这 个 同 量 回 漳 棋 盘 
交叉 点 坐标 。 























代码 清单 6-4 ”使 用 单 平 面 围棋 棋盘 编码 器 对 交叉 点 进行 编码 和 解码 















































def encode point(self, point): <--- ”将 棋盘 交叉 点 转换 为 整数 索 3 
return self.board width * (point.row - 1) + (point.col - 1) 





def decode point index(self, index): <--- 将 整数 索引 转换 为 棋盘 交叉 点 
row = index // self.board width 


col = index % self.board width 
return Point(row=row + 1, col=col + 1) 


def num points(self): 
return self.board width * self.board height 


def shape(self) : 
return self.num planes, self.board height, self.board width 





关于 围棋 棋盘 编码 器 的 部 分 到 此 结束 。 接 下 来 我 们 将 生成 能 够 编码 
并 输送 给 神经 网 络 的 数据 。 


6.2 生成 树 搜 索 游戏 用 作 网 络 训 练 数 据 


将 机 器 学 习 应 用 于 围棋 比赛 之 前 ， 我 们 需要 准备 一 个 训练 数据 集 。 
幸运 的 是 ， 各 种 公共 围棋 服务 器 上 一 直 都 有 强大 的 棋 手 在 进行 对 弈 。 我 
们 会 在 第 7 章 中 介绍 如 何 查 找 和 处 理 这 种 棋谱 并 创建 训练 数据 。 现 在 我 
们 可 以 先生 成 棋谱 。 本 节 介 绍 如何 使 用 第 4 草创 建 的 树 搜 索 机 器 人 来 生 
成 棋谱 。 在 后 面 几 市 中 ， 我 们 可 以 用 这 些 机 器 人 生成 的 棋谱 作为 训练 数 
据 来 进行 深度 学 习 试 验 。 











使 用 机 器 学 习 模 仿 经 典 算 法 看 上 去 是 不 是 有 点 傻 ? 但 如 果 传 统 算法 
非常 慢 ， 那 就 不 一 样 了 。 在 这 里 ， 对 于 速度 慢 的 树 搜 索 算 法 ， 我 们 希望 
用 机 器 学 习 来 迅速 得 到 它 的 近似 值 。 这 一 点 正 是 AlphaGo Zero 的 关键 概 
念 。 我 们 会 在 第 14 音 介绍 AlphaGo Zero 的 工作 原理 。 





接 下 来 ， 在 dlgo 模 块 之 外 创建 一 个 名 为 generate_mcts_games.py 的 文 
件 。 从 文件 名 就 可 以 看 出 ， 这 段 代 码 的 功能 是 用 MCTS 算 法 生成 棋局 。 
之 后 ， 我 们 会 把 每 一 局 的 每 一 回合 都 用 6.1 节 中 的 OnePlaneEncoder 进 





行 编码 ， 并 存储 在 numpy 数 组 中 以 备 将 来 使 用 。 我 们 需要 先 将 代码 清单 
6-5 中 的 import 语 句 放 在 这 个 文件 的 顶部 。 









































代码 清单 6-5 用 于 生成 蒙特 卡 洛 树 搜索 棋局 编码 数据 的 模块 的 导入 语句 











import argparse 
import numpy as np 


from dlgo.encoders import get encoder by_name 
from dlgo import goboard fast as goboard 

from dlgo import mcts 

from dlgo.utils import print board, print move 





从 这 些 导 入 语句 中 可 以 看 到 这 个 任务 所 需要 的 工具 : mcts 模 块 、 第 
3 章 中 的 goboard 实 现 以 及 6.1 节 刚 定义 的 encoders 模 块 。 接 下 来 编写 生成 
游戏 数据 的 函数 generate_game， 如 代码 清单 6-6 所 示 。 在 这 个 函数 
中 ， 我 们 先 用 第 4 章 的 MCTSAgent 实 例 来 进行 目 我 对 大 《注意 ， 可 以 利 
用 第 4 章 介绍 的 MCTS 机 器 人 的 温度 参数 来 调节 树 搜索 的 活跃 度 ) 。 对 
于 每 一 个 动作 ， 在 落 子 之 前 对 棋盘 状态 进行 编码 ， 然 后 将 这 个 动作 编码 
为 一 个 独 热 向 量 ， 最 后 将 它 应 用 到 棋盘 上 。 





代码 清单 6-6 ”为 本 章 生成 MCTS 棋 局 








def generate game(board size，rounds，max_moves，temperature ) : 














boards, moves = []，[] <--- 在 boards 变 量 中 存储 编码 后 的 棋盘 状态 ， 而 mov 
es 变量 用 于 存放 编码 后 的 落 子 动作 




















encoder = get encoder by name('oneplane', board size) <--- 用 给 定 的 
棋盘 尺寸 、 按 名 称 初始 化 一 个 OnePlaneEncoder 实 例 





game = goboard.GameState.new game(board size) <--- 一 个 尺寸 为 board_ 


size 的 新 棋局 被 实例 化 好 了 




















bot = mcts.MCTSAgent(rounds，temperature) <--- ”指定 推演 回合 数 与 温度 
参数 ， 创 建 一 个 蒙特 卡 洛 树 搜 索 代 理 作为 我 们 的 机 器 人 








num moves = 0 
while not game.is over() : 
print_board(game.board) 
move = bot.select move(game) <--- 机 器 人 选择 下 一 步 动 作 
if move.is play: 
boards.append(encoder.encode(game)) <--- ”把 编码 的 棋盘 状态 添 
加 到 boards 数 组 中 











move_one_hot = np.zeros(encoder.num_points()) 

move_one_hot[encoder .encode_point(move.point)] = 1 

moves .append(move_one_hot) <--- 把 下 一 步 动 作 进行 独 热 编 码 ， 并 
添加 到 moves 数 组 中 


























print_move(game.next_player，move) 


game = game.apply_move(move) <--- 之 后 把 机 器 人 的 下 一 步 动 作 执行 到 








num_moves += 1 
if num moves > max_moves: <--- ”继续 下 一 步 动 作 ， 直 至 达到 最 大 动作 数 

















break 


return np.array(boards), np.array(moves) 








现在 我 们 就 可 以 使 用 绽 特 卡 洛 树 搜 索 来 创建 和 编码 棋局 数据 了 ， 接 
下 来 定义 一 个 main 方 法 来 运行 几 盘 棋 ， 并 保存 它们 ， 如 代码 清单 6-7 所 
示 。 这 上 段 代 人 码 也 可 以 放 在 generate_mcts_games.py 文 件 中 。 











代码 清单 6-7 为 本 章 生 成 MCTS 棋 局 的 主 函 数 








def main(): 

parser = argparse.ArgumentParser() 

parser.add argument('--board-size', '-b', type=int, default=9) 
parser.add argument('--rounds', '-r', type=int, default=1680) 
parser.add argument('--temperature', '-t', type=float, default=0.8) 
parser.add argument('--max-moves', '-m', type=int, default=60, 

help='Max moves per game.') 

parser.add argument('--num-games', '-n', type=int, default=10) 
parser.add argument('--board-out') 

parser.add argument('--move-out') 

















lh 














args = parser.parse args() <--- ”这 个 应 用 允许 用 命令 行 参数 进行 自 定义 设 


ys = [] 


for i in range(args.num games): 
print('Generating game %d/%d...' % (i + 1, args.num games)) 
x, y = generate game(args.board size, args.rounds, args.max moves, 
= args.temperature) <--- 根据 给 定 棋局 数量 来 生成 相应 的 棋局 数据 
xs.append(x) 
ys.append(y) 











= np.concatenate(xs) <--- ” 当 所 有 棋局 都 生成 之 后 ， 为 棋局 添加 相应 的 特征 





x 
与 标签 
y = np.concatenate(ys) 








np.save(args.board out, x) <--- 根据 命令 行 参数 所 指定 的 选项 ， 将 特征 与 
标签 数据 存放 到 不 同 的 文件 中 


np.save(args.move_out，y) 


if name == ' main  ”: 
main() 











有 了 这 个 实用 工具 程序 ， 我 们 就 可 以 轻松 地 生成 棋局 数据 了 。 例 
如 ， 假 设 我 们 想 生 成 20 局 9x9 围 棋 的 棋局 数据 ， 并 将 特征 存放 在 


features.npy 文 件 中 ， 将 标签 存放 在 labels.npy 文 件 中 ， 那 么 可 以 执行 下 面 
的 命令 : 


python generate mcts games.py -n 26 --board-out features.npy 





ww --move-out labels.npy 





注意 ， 生 成 这 样 的 棋局 数据 可 能 会 相当 缓慢 ， 因 此 需要 等 符 一 段 时 
间 才 能 够 生成 大 量 的 游戏 。 我 们 可 以 选择 减少 MCTS 的 轮 数 ， 但 这 也 会 
相应 降低 机 器 人 的 棋 力 段位 。 因 此 ， 我 们 已 经 事先 生成 了 一 些 棋局 数 
据 ， 可 以 在 本 书 GitHub 代 码 库 中 的 generated_games 目 录 中 找到 。 对 应 的 
棋局 输出 文件 为 features-40k.npy 和 labels-40k.npy。 这 些 数据 包含 了 大 约 
40 000 个 回合 ， 相 当 于 几 百 局 棋 。 这 些 棋局 数据 在 生成 时 设置 为 每 回合 
进行 5 000 轮 MCTS。 在 这 种 条 件 下 ，MCTS 引 擎 大 多 数 情 况 下 都 能 够 合 


理发 挥 ， 因 此 我 们 也 可 以 期 望 神经 网 络 能 够 学 会 如 何 模仿 它 。 


至 此 我 们 已 经 完成 了 预 处 理 的 全 部 工作 ， 下 一 步 就 可 以 将 神经 网 络 
应 用 于 生成 的 数据 了 。 我 们 可 以 直接 用 第 5 章 中 的 网 络 实现 来 做 到 这 一 
把， 而 这 么 做 也 不 失 为 一 个 很 好 的 练习 。 但 展望 未 来 ， 我 们 需要 一 个 更 
强大 的 工具 来 满足 日 普 复 杂 的 深度 神经 网 络 需求 。 下 一 节 将 介绍 Keras 
深度 学 习 库 。 





6.3 ”使 用 Keras 深 度 学 习 库 


随 着 许多 强大 的 、 封 效 了 底层 抽象 的 深度 学 习 库 的 出 现 ， 神 经 网 络 
的 梯度 和 反问 传递 的 计算 正 渐渐 变 为 失传 的 技艺 。 在 第 5 章 中 ， 我 们 从 
零 开始 实现 了 一 个 神经 网 络 ， 这 么 做 益处 颇 多 ， 现 在 是 时 候 转 向 结构 更 
成 熟 、 特 性 更 丰富 的 软件 了 。 








Keras 深 度 学 习 库 是 一 个 用 Python 编写 的 结构 优雅 、 广 泛 流 行 的 深度 
学 习 工 具 。 这 个 开源 项 目 创建 于 2015 年 ， 并 迅速 积累 了 巨大 的 用 户 群 。 
它 的 代码 托管 在 GitHub 上 ， 并 在 官方 网 站 上 提供 了 优秀 的 文档 。 


6.3.1 了解 Keras 的 设计 原理 





Keras 的 主要 优势 之 一 ， 就 是 它 的 API 非 常 直观 ， 因 此 很 容易 上 手 ， 
并 能 帮助 开发 者 实现 快速 原型 设计 和 快速 实验 周期 。 这 使 Keras 成 为 许 
多 数据 科学 竞赛 的 热门 选择 。Keras 吸 收 了 其 他 深度 学 习 工 具 〈 如 
Torch) 的 理念 ， 并 采用 了 模块 化 的 构建 块 形式 。 它 的 妨 一 大 优势 是 可 














扩展 性 ， 让 我 们 可 以 很 直观 地 添加 新 的 目 定 义 层 ， 或 者 扩展 现 有 功能 。 


还 有 一 个 原因 让 Keras 很 容易 上 手 ， 那 就 是 它 的 功能 非常 齐全 。 例 
如 ， 很 多 流行 的 类 似 MNIST 数 据 集 都 可 在 Keras 中 直接 加 载 ， 并 且 在 
GitHub 代 码 库 中 还 可 以 找到 很 多 优秀 的 示例 。 最 重要 的 是 ，GitHub 上 记 
录 了 Keras 的 完整 生态 体系 ， 包 括 各 种 Keras 扩 展 和 独立 项 目 ， 并 由 开源 
社区 建设 维护 。 


此 外 ，Keras 还 有 一 个 与 众 不 同 的 “后 端 ? 概 念 : 这 个 库 可 以 用 几 个 
不 同 的 强大 引擎 来 运行 ， 而 且 可 以 根据 需求 切换 后 端 引 擎 。 我 们 可 以 把 
Keras 看 作 是 深度 学 习 体系 的 "前端 ?: 它 提 供 一 系列 方便 的 高 级 抽象 和 
功能 库 来 运行 算法 模型 ， 而 后 台 繁 重 的 工作 则 可 以 选择 一 个 后 端 服务 来 
负责 运行 。 截 至 编写 本 书 时 ，Keras 的 官方 后 端 有 3 个 : TensorFlow、 
Theano 和 Microsoft Cognitive Toolkit。 在 本 书 中 我 们 将 使 用 谷歌 的 
TensorFlow 库 作为 默认 后 端 ， 它 同时 也 是 Keras 的 默认 后 端 。 如 有 果 读 者 对 
其 他 后 端 有 所 偶 好 ， 由 于 Keras 处 理 好 了 大 部 分 的 差异 细节 ， 切 换 起 来 
也 不 费劲 。 




















在 本 节 中 ， 我 们 将 先 学 习 如 何 安 逆 Keras， 然 后 通过 运行 第 5 章 中 的 
手写 数字 识别 示例 代码 来 了 解 其 API， 最 后 继续 完成 围棋 落 子 动作 预测 
的 任务 。 





6.3.2 ”安装 Keras 深 度 学 习 库 





要 开始 使 用 Keras， 需 要 先 安装 一 个 后 端 服 务 。 我 们 可 以 先 选 用 


TensorFlow。 安 装 它 最 便捷 的 途径 是 用 pip 命 令 ， 如 下 所 示 : 


pip install tensorflow 


如 果 你 的 计算 机 配 有 NVIDIA GPU， 并 安装 了 最 新 的 CUDA 驱 动 程 
序 ， 那 么 可 以 尝试 安装 GPU 加 速 版 TensorFlow: 


pip install tensorflow-gpu 


如 果 tensorflow-gpu 与 你 的 硬件 和 驱动 程序 相互 兼容 ， 就 会 有 己 
大 的 速度 提升 。 








Keras 还 有 几 个 可 选 的 依赖 库 ， 如 有 助 于 模型 序列 化 与 可 视 化 的 组 
件 。 不 过 我 们 和 暂时 先 跳 过 它们 ， 直 接 继续 安装 Keras 深 度 学 习 库 本 身 : 


pip install Keras 


6.3.3” 热 导 运 动 : 在 Keras 中 运行 一 个 熟悉 的 示 
例 


本 市 中 我 们 将 看 到 用 来 定义 和 运行 Keras 模 型 所 需要 遵循 的 4 步 工 作 
流程 。 


(1) 数据 预 处 理 一 一 加 载 并 准备 将 要 输送 到 神经 网 络 的 数据 集 。 
(2) 模型 定义 一 一 将 模型 实例 化 ， 并 根据 希 要 回 其 添加 具体 层 。 


(3) 模型 编译 一 一 使 用 优化 器 、 损 失 函 数 以 及 一 系列 评估 指标 


(可 选 ) 来 编译 先前 定义 的 模型 。 


(4) 模型 训练 与 评估 一 一 在 数据 上 训练 深度 学 习 模型 ， 并 进行 评 
估 。 





为 了 尽快 上 手 Keras， 我 们 将 引导 你 完成 第 5 章 中 所 展示 的 用 例 : 使 
用 MNIST 数 据 集 来 预测 手写 数字 。 后 面 我 们 将 看 到 ， 第 5 章 中 的 简单 模 
型 定义 已 经 和 Keras 语 法 相当 接近 了 ， 因 此 换 用 Keras 应 该 更 加 轻松 。 





在 Keras 中 可 以 定义 两 种 类 型 的 模型 顺序 模型 和 更 通用 的 非 顺 序 
模型 。 本 章 中 我 们 仅 使 用 顺序 模型 。 两 种 模型 的 类 定义 都 可 以 在 
keras.models 中 找到 。 要 定义 顺序 模型 ， 必 须 癌 它 添 加 有 具体 的 层 ， 这 一 
点 和 第 5 章 的 实现 一 样 。Keras 层 可 在 keras.layers 模 块 获得 。 用 Keras 加 载 
MNIST 数 据 集 也 很 简单 ， 这 个 数据 集 可 以 在 keras.datasets 模 块 中 找到 。 
开始 定义 这 个 应 用 解决 方案 之 前 ， 我 们 先导 入 它 的 全 部 依赖 ， 如 代码 清 
单 6-8 所 示 。 





代码 清单 6-8 ”从 Keras 导 入 模型 、 层 和 数据 集 





import keras 

from keras.datasets import mnist 
from keras.models import Sequential 
from keras.layers import Dense 


下 一 步 是 加 载 并 预 处 理 MNIST 数 据 。 在 Keras 中 ， 这 个 步骤 只 需 几 
行 代 码 即 可 实现 。 加 载 完成 之 后 ， 将 60 000 个 训练 样本 和 10 000 个 测试 
样本 数据 展 平 ， 再 转换 为 float 类 型 ， 然 后 除 以 255， 将 输入 数据 进行 
归 一 化 处 理 。 这 样 做 是 由 于 数据 集中 的 像素 值 变化 范围 是 0 一 255， 因 此 





ee 1] 的 范围 之 后 可 以 使 神经 网 络 的 训练 更 方便 。 此 外 ， 
第 5 章 中 一 样 ， 标 签 必须 采用 独 热 编 码 。 代 码 清单 6-9 展 示 了 如 何 用 
Keras 执 行 上 述 操作 。 



































代码 清单 6-9 ”使 用 Keras 加 载 和 预 处 理 MNIST 数 据 


(x_train, y train), (x_test, y test) = mnist.1load data() 


x_train = x_ train.reshape(666060, 784) 
x_test = x test.reshape(160660, 784) 
x_train = x train.astype('float32') 
x_test = x test.astype('float32') 
x_train /= 255 

X_test /= 255 


y_train = keras.utils.to categorical(y train，16) 
y_test = keras.utils.to_categorical(y_test，16) 





数据 准备 好 之 后 ， 现 在 可 以 继续 定义 神经 网 络 了 。 在 Keras 中 初始 
化 一 个 Sequential 模 型 ， 然 后 逐个 添加 多 个 层 ， 如 代码 清单 6-10 所 
示 。 为 第 一 层 提供 参数 ijnput_shape 来 指明 输入 数据 的 形状 。 在 我 们 的 
例子 里 ， 输 入 数据 是 一 个 维度 为 784 的 向 量 ， 因 此 应 当 提 供 参 
数 input_shape = (784, ) 。Keras 中 的 Dense 层 在 创建 时 可 以 提供 关键 
字 参 数 activation， 以 指定 这 个 稠密 层 的 激活 函数 。 我 们 选择 
sigmoid 激 活 函 数 ， 这 也 是 目前 唯一 介绍 过 的 激活 函数 。Keras 里 还 有 很 
多 激活 函数 ， 我 们 会 在 后 续 章 节 中 深入 讨论 。 








代码 清单 6-10 ”用 Keras 构 建 一 个 简单 的 顺序 模型 








model = Sequential() 
model.add(Dense(392, activation='sigmoid', input_ shape=(784,))) 


model.add(Dense(196, activation='sigmoid')) 
model.add(Dense(10, activation='sigmoid')) 
model .summary() 








创建 Keras 模 型 的 下 一 步 是 用 一 个 损失 函数 和 优化 器 来 编译 

(compile〉 模 型 ， 如 代码 清单 6-11 所 示 。 可 以 用 名 称 字 符 串 来 指定 这 两 
个 参数 : 损失 函数 选择 mean_squared_error〔 均 方 误差 ) ， 优 化 器 则 
选择 sgd (随机 梯度 下 降 ) 。 同 样 地 ，Keras 还 有 很 多 损失 函数 和 优化 器 
可 供 选 择 ， 但 作为 上 手 示例 ， 我 们 可 以 先 用 第 5 章 中 已 经 介绍 过 的 这 两 
个 即 可 。 另 外 ，Keras 模 型 的 编译 步骤 中 还 可 额外 提供 一 个 参数 metrics 
来 指定 多 个 评估 指标 。 对 我 们 的 第 一 个 应 用 来 说 ， 使 用 accuracy ( 准 
确 率 ) 这 一 个 指标 就 够 了 。accuracy 指 标 用 来 度量 模型 得 分 最 高 的 预 
测 输 出 与 数据 的 真实 标签 之 间 匹 配 的 频率 。 























代码 清单 6-11 ”编译 Keras 深 度 学 习 模 型 


model.compile(loss='mean squared error', 


optimizer="'sgd', 
metrics=['accuracy']) 





最 后 一 步 是 执行 网 络 的 训练 步骤 ， 然 后 用 测试 数据 对 它 进 行 评 舍 ， 
如 代码 清单 6-12 所 示 。 我 们 可 以 在 model 上 调用 fit 函 数 来 完成 这 一 
步 。 调 用 时 指定 的 参数 包括 训练 数据 集 、 小 批量 太 才 以 及 运行 的 迭代 周 
期 数 。 








代码 清单 6-12 ”训练 和 评估 Keras 模 型 

















model.fit(x train, y_train, 
batch size=128,， 
epochs=26) 


score = model.evaluate(x test, y test) 
print('Test loss:', score[06]) 
print('Test accuracy:', score[1]) 








总 结 一 下 ， 构 建 和 运行 Keras 模 型 分 为 4 个 步骤 : 数据 预 处 理 、 模 型 
定义 、 模 型 编译 以 及 模型 训练 与 评估 。 PO 
速 完成 这 个 4 步 循 环 ， 从 而 实现 快速 实验 周期 。 这 一 点 非常 重要 。 因 为 

通常 情况 下 ， 初 始 的 模型 定义 仅 通 ea 


6.3.4 ”使 用 Keras 中 的 前 馈 神 经 网 络 进行 动作 预 
测 


现在 读 考 应当 已 经 对 Keras 顺 序 神 经 网 络 的 API 有 所 了 解 ， 让 我 们 回 
到 围棋 动作 预测 的 应 用 场景 。 图 6-3 展 示 了 训练 过 程 中 的 这 个 步骤 。 首 
先 需 要 加 载 6.2 节 生成 的 围棋 棋谱 数据 ， 如 代码 清单 6-13 所 示 。 注 意 与 之 
前 的 MNIST 数 据 一 样 ， 围 棋 棋 盘 数 据 需要 展 平 为 向 量 。 





G0 0 QQ 0 S| 0.0 0.0 0.0 03 0.0 

00 -1 0 -l OQ 4 人 NO 0.0 0 0.0 0.0 0.0 

00 1-1 0 一 > COZSD 一 > 01 00 00 00 00 

供 刘 了 1 光 CENG 2 0.0 0.0 0.0 0.0 0.3 

华语 人 证 “ 认 O 00 0.0 0.0 0.0 0.0 
代表 当前 棋盘 Keras 模 型 实例 代表 预测 动作 概率 的 
的 NumPy 数 组 NumPy 数 组 





























图 6-3 ”神经 网 络 可 以 用 来 预测 围棋 落 子 动作 。 如 果 已 经 将 游戏 状态 编码 为 矩阵 ， 就 可 以 把 这 个 
输送 给 动作 预测 模型 了 。 模 型 的 输出 是 一 个 代表 各 个 可 能 动作 概率 的 向 量 























代码 清单 6-13 ”加 载 并 预 处 理 先前 存储 的 围棋 棋谱 数据 











import numpy as np 
from keras.models import Sequential 
from keras.layers import Dense 


np.random. seed(123) <--- 设置 一 个 固定 的 随机 种 子 ， 以 确保 这 个 脚本 可 以 严格 重 
现 

X = np.load('../generated games/features-46k.npy') <--- 将 样本 数据 加 载 
到 NumPy 数 组 中 

Y = np.load('../generated games/labels-46k.npy') 





samples = X.shape[6] 
board size = 9 *# 9 





X = X.reshape(samples, board size) <--- 将 输入 数据 由 9x9 的 矩阵 转换 为 维度 为 
81 的 向 量 


Y = Y.reshape(samples, board size) 




















train samples = int(6.9 * samples) <--- 了 预 留 数据 集 的 16% 作 为 测试 集 ， 其 他 的 
96% 用 于 训练 

X _ train，X test 
Y_train，Y _ test 








X[:train samples]，X[train_samples:] 
Y[:train samples], Y[train samples:] 





接 下 来 我 们 用 上 面 定 义 的 特征 xX 和 标签 Y 来 定义 一 个 用 于 预测 围棋 动 
作 的 模型 ， 并 运行 它 。9x9 棋 盘 有 81 种 可 能 的 落 子 动作 ， 因 此 网 络 需要 
预测 81 个 分 类 。 我 们 移 讨 论 一 下 最 简单 的 情形 ， 假 设 我 们 财 上 眼睛 ， 随 
意 指出 棋盘 上 的 一 个 位 置 ， 这 样 就 有 1/81 的 机 会 纯粹 依靠 运气 就 能 选 对 
下 一 回合 动作 ， 即 准确 率 为 1.2%。 因 此 ， 我 们 希望 做 出 来 的 模型 的 准确 
率 能 够 显 关 超过 1.2%。 





定义 一 个 简单 Keras 多 层 感 知 机 ， 包 含 3 个 Dense (稠密 层 ) ， 激 活 
函数 均 为 sigmoid， 并 采用 均 方 误差 作为 损失 函数 、 随 机 梯度 下 降 作 为 
优化 器 进行 编译 。 之 后 用 这 个 网 络 进行 15 个 迭代 周期 的 训练 ， 并 使 用 测 
试 数据 进行 评估 ， 如 代码 清单 6-14 所 示 。 





























代码 清单 6-14 在 生成 的 围棋 棋谱 数据 上 运行 Keras 多 层 感 知 机 











model = Sequential() 

model.add(Dense(186060, activation='sigmoid', input shape=(board size,))) 
model.add(Dense(5860, activation='sigmoid')) 

model.add(Dense(board size，activation='sigmoid ')) 

model.summary'( ) 


model.compile(loss='mean squared _ error ' ， 
optimizer="'sgd', 
metrics=['accuracy' ]) 


model.fit(X train, Y _ train， 
batch size=64,， 
epochs=15， 
Verbose=1， 
validation data=(X test, Y test) ) 


score = model.evaluate(X test, Y test, verbose=0) 
print('Test loss:', score[06]) 
print('Test accuracy:', score[1]) 





执行 这 段 代码 ， 可 以 在 控制 台 看 到 输出 的 模型 摘要 和 评估 指标 : 


Layer (type) Output Shape Param # 
dense 1 (Dense) (None，1666) 
dense 2 (Dense) (None，566) 


dense 3 (Dense) (None, 81) 


Total params: 623,0681 
Trainable params: 623,0681 
Non-trainable params: 6 


Test loss: 6.6129547887668 
Test accuracy: 6.6236486486486 





注意 输出 中 的 Tranable params: 623,681 这 一 行 ， 它 表示 训练 过 
程 中 维护 了 超过 60 万 个 独立 权重 。 这 是 模型 计算 强度 的 一 个 粗略 的 指 
标 ， 它 还 可 以 粗略 地 估计 模型 的 容量 (capacity) ， 即 它 学 习 复杂 关系 
的 能 力 。 当 比较 不 同 的 网 络 架 构 时 ， 参 数 总 数 可 以 用 来 近似 地 比较 模型 
的 体 量 。 





从 输出 可 以 看 到 ， 实 验 的 预测 准确 率 仅 为 2.3% 左 右 ， 这 并 不 能 令 





人 满意 。 但 请 注意 ， 前 面 讲 的 随机 猜测 动作 的 基础 实现 ， 准 确 率 是 
1.29%6。 也 就 是 说， 尽管 模型 表现 得 不 是 很 好 ， 但 它 确 实学 到 了 一 些 东 
西 ， 预 测 动 作 的 效果 比 随机 猜测 好 。 











我 们 可 以 癌 模 型 输入 特定 的 棋局 来 租 看 它 的 大 致 情况 。 岁 6-4 展 示 
了 我 们 设计 的 一 个 棋局 状态 ， 下 一 回合 执 
子 方 可 以 在 A 点 或 B 点 落 子 来 吃 掉 对 方 两 果子 。 另 外 ， 这 个 棋局 并 不 在 
我 们 的 训练 集中 。 
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图 6-4 用 于 测试 模型 的 示例 棋局 。 在 这 个 棋局 中 ， 黑 方 可 以 通过 在 A 点 落 子 来 吃 掉 白 方 两 颗 
子 ， 而 和 白 方 也 可 以 在 B 点 落 子 来 吃 掉 黑 方 两 颗 子 。 在 这 里 ， 先 落 子 的 一 方 会 占 握 巨大 的 优势 









































现在 ， 可 以 将 这 个 棋局 输入 训练 模型 中 ， 并 输出 它 的 预测 结 末 ， 如 
代码 清单 6-15 所 示 。 








代码 清单 6-15 ”用 已 知 的 棋局 来 评估 模型 




















-> 


_boa np.array([ 

606, 60, 60, 06, 6060, 6060, 606, 06, 0 
0, 6, 60, 6, 6, 6, 06，0， 98， 
606, 60, 060, 06, 6060, 6060, 606, 06, 0 


.> 


下 


-> 


GO@QOQSQQS 


-> 


SOOOPP 


]]) 
move_probs = model.predict(test board)[0©] 
i=0 
for row in range(9): 
Pow formatted = [|] 
for col in range(9): 
row_formatted.append('{:.3f}' .format(move_probs[i])) 
i += 1 
print(' '.join(row formatted)) 





输出 如 下 所 示 : 


OOOOOOoOOOoO® 


0 6 . 
0 6 . 
0 6 . 
0 6 . 
0 6 . 
0 6 . 
0 6 . 
0 6 . 
0 6 . 


QQ@OSOOOOOOCS 
Q@OSOOOOOOCS 





这 个 矩阵 与 9x9 的 棋盘 一 一 映射 : 每 个 数字 代表 模型 在 棋盘 这 个 点 
上 下 一 回合 落 子 的 置信 度 。 模 型 输出 的 结果 并 不 太 好 : 它 甚 至 连 不 能 在 
被 棋子 占据 的 地 方 落 子 都 没有 学 会 。 但 请 注意 ， 棋 盘 边 缘 的 得 分 始终 低 
于 靠近 中 心 的 得 分 。 而 根据 围棋 传统 ， 除 终 盘 或 者 其 他 特殊 情况 之 外 ， 
该 尽量 避免 在 棋盘 边缘 落 了 于 。 这 样 看 来 ， 我 们 的 模型 已 经 学 会 了 一 个 
棋 相 关 的 合理 概念 。 它 并 没有 依靠 对 围棋 策略 或 者 落 子 效率 的 理解 ， 
而 是 简单 地 模仿 我 们 的 MCTS 机 器 人 所 做 的 事情 。 这 个 模型 也 许 不 能 预 
测 很 多 强力 的 沙子 动作 ， 但 它 至 少 已 经 学 会 了 避免 一 整 类 非常 糟糕 的 动 
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作 。 


这 已 经 可 以 算是 真正 的 进步 了 ， 但 我 们 还 可 以 做 得 更 好 。 第 一 次 实 





验 中 所 展现 出 来 的 几 个 问题 ， 将 在 本 音 后 面 几 节 分 别 得 到 处 理 ， 围 棋 落 
子 动作 的 预测 准确 京 也 会 逐渐 提高 。 我 们 需要 解决 下 面 几 个 问题 。 


这 个 预测 模型 使 用 的 数据 是 由 树 搜索 算法 生成 的 ， 而 这 个 算法 的 随 
机 性 很 高 。 有 时 候 MCTS 引 警 会 产生 很 奇怪 的 动作 ， 尤 其 在 遥遥 领 
先 或 远 远 落 后 的 局 面 下 。 在 第 7 章 中 我 们 将 利用 人 工 棋谱 数据 创建 
一 个 深度 学 习 模型 。 当 然 ， 人 类 的 策略 也 有 出 乎 意料 的 时 候 ， 但 他 
们 至 少 不 会 下 一 些 训 无 道理 的 废 棋 。 

本 章 使 用 的 神经 网 络 架构 还 有 很 大 的 改进 空间 。 在 多 层 感 知 机 中 ， 
因为 必须 将 二 维 的 棋盘 数据 展 平 为 一 维 向 量 ， 从 而 丢失 了 棋盘 相关 
的 全 部 空间 信息 ， 所 以 它 其 实 并 不 太 适 合用 来 处 理 围棋 棋盘 数据 。 
6.4 节 将 介绍 一 种 新 型 的 神经 网 络 ， 它 可 以 更 好 地 捕获 围棋 棋盘 的 

结构 。 

到 目前 为 止 ， 在 所 有 网 络 中 我 们 都 只 用 过 sigmoid 这 一 个 激活 函 

数 。6.5 节 和 6.6 节 将 介绍 两 种 新 的 激活 函数 ， 它 们 通常 可 以 产生 更 
好 的 结果 。 

到 目前 为 止 ， 我 们 只 用 过 MSE 这 一 个 损失 函数 。 它 很 直观 ， 但 并 不 
太 适 合 我 们 的 使 用 场景 。6.5 节 我 们 将 采用 为 分 类 任务 量 身 定制 的 

损失 函数 。 














在 本 章 的 结尾 ， 上 述 问题 大 多 得 到 解决 之 后 ， 我 们 就 能 够 构建 出 一 


个 比 首 次 尝试 更 加 优秀 的 模型 ， 能 够 更 好 地 预测 动作 。 在 第 7 革 中 我 们 


还 全 


学 习 构 建 更 加 强大 的 机 器 人 的 关键 技术 。 





注意 ， 我 们 的 最 终 目 标 不 是 尽量 准确 地 预测 落 子 动作 ， 而 是 要 创建 





一 个 更 强 的 围棋 机 器 人 。 因 此 ， 虽 然 深 层 神经 网 络 永远 也 无 法 在 历史 棋 
局 的 下 一 步 动 作 预 测 上 做 得 更 好 ， 但 深度 学 习 的 强大 之 处 在 于 它们 仍然 
能 隐 式 地 捕获 棋局 的 结构 ， 并 找到 合理 的 甚至 非常 优秀 的 落 子 动作 。 








6.4 ”使 用 敬 积 网 络 分 析 空 间 





在 围棋 中 往往 会 有 一 些 特定 形状 的 局 部 棋子 组 合 反 复出 现 ， 我 们 将 
它们 称 为 定式 。 人 类 棋 手 学 习 并 掌握 了 数 十 种 这 样 的 定式 ， 并 为 它们 赋 
了 予 了 富 含 意义 的 名 称 〈 如 席 口 、 双 以 及 我 个 人 最 喜欢 的 梅 从 六) 。 为 了 
能 够 尽量 模仿 人 类 的 决策 ， 我 们 的 围棋 AI 也 应 当 能 够 识别 很 多 局 部 定 
式 。 一 种 被 称 为 卷 积 网 络 的 特殊 神经 网 络 被 设计 出 来 ， 用 于 检测 这 样 的 
空间 关系 。 卷 积 神经 网 络 (CNN) 在 游戏 之 外 也 有 许多 应 用 : 在 图 
像 、 首 频 甚 至 文本 领域 都 能 发 现 它 的 应 用 。 本 市 将 介绍 如 何 构 建 CNN， 
并 将 它 应 用 到 围棋 游戏 数据 中 : 首先 介绍 卷 积 的 概念 ， 然 后 展示 如 何在 
Keras 中 构建 CNN， 最 后 展示 处 理 卷 积 层 输出 的 几 个 有 用 方法 。 




















6.4.1 郑 积 的 下 观 解 释 


卷 积 层 以 及 我 们 用 它 构 建 的 卷 积 神经 网 络 ， 名 称 来 源 于 计算 机 视觉 
领域 的 一 个 传统 操作 : 卷 积 〈convolution) 。 卷 积 是 一 种 图 像 转换 〈 也 
称 图 像 过 滤 ) 的 直观 方法 。 对 于 尺寸 相同 的 两 个 和 矩阵， 可 以 执行 以 下 操 
作 来 计算 简单 卷 积 。 





(1) 将 两 个 矩阵 的 对 应 元 素 逐 个 相 乘 ; 


(2) 将 结果 矩阵 的 所 有 元 素 值 相 加 。 





这 种 简单 卷 积 的 输出 是 一 个 标量 值 。 图 6-5 展 示 了 这 种 操作 的 一 个 
例子 ， 对 两 个 3x3 和 矩阵 进行 卷 积 运算 ， 得 到 一 个 标量 。 





@ 要 计算 简单 卷 积 ， 首 先 要 使 用 两 个 OS 将 两 个 矩阵 的 对 应 全 将 上 一 步 的 结果 和 矩阵 
A 目 同 的 矩 阵 。 这 里 用 的 斥 寸 是 素 逐 1 \ 的 所 有 元 素 值 相 加 。 


1 0 0 Er 2 1 -1 0 0 \ 
0 1 0 0 0 0 [ol 
时 0 1 2 0 0 1 


图 6-5 ”简单 卷 积 运 算 : 将 两 个 尺寸 相同 的 矩阵 的 对 应 元 素 逐 个 相 乘 ， 然 后 将 所 有 元 素 值 相 加 


呈 So So 








这 种 简单 卷 积 并 不 能 立即 帮 到 我 们 ， 但 它们 可 用 于 计算 更 复 洒 的 、 
对 我 们 的 应 用 场景 非常 有 帮助 的 卷 积 。 接 下 来 ， 我 们 不 再 使 用 两 个 尺寸 
相同 的 矩阵 ， 而 是 固定 第 二 个 汗 阵 的 尺寸 ， 并 任意 增加 第 一 个 矩阵 的 尺 
寸 。 在 这 种 情况 下 ， 我 们 将 第 一 个 矩阵 称 为 输入 图 像 (input image) ， 
将 第 二 个 矩阵 称 为 卷 积 核 〈convolutional kernel) ， 或 者 简称 为 核 
(kernel， 有 时 也 称 为 过 滤器 ， 即 fter) 。 因 为 核 的 尺寸 小 于 输入 图 
像 ， 所 以 可 以 在 输入 图 像 的 许多 分 块 《〈patch) 上 计算 简单 卷 积 。 在 图 6- 
6 中 ， 可 以 看 到 针对 10x10 输 入 图 像 的 这 种 卷 积 操作 ， 它 的 核 是 一 个 3x3 
和 窍 阵 。 





@@ 第 一 个 矩阵 的 尺寸 可 以 @ 这 个 操作 的 结果 是 


任意 增加 ， 图 中 使 用 的 @ 使 用 第 二 个 矩阵 〈 在 这 里 称 为 各 小 的 短 了 在 本 9， 
是 一 个 10x10 的 例子 。 卷 积 过 滤器 ) 可 以 遍历 第 一 个 一 个 8x8 和 矩 
ee 并 和 
y 前 面 一 样 计算 卷 积 。 
0 0 \ 
0 0 "tal 00 330 
0| |! | 04400 -440 
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@@ 本 例 中 使 用 的 卷 积 过 滤器 
称 为 Sobel 过 滤器 ， 可 用 
于 边缘 检测 。 
图 6-6 将 疮 积 核 应 用 到 输入 图 像 的 所 有 相同 尺寸 的 分 块 上 ， 可 以 计算 图 像 与 核 的 卷 积 。 本 例 中 


选择 的 核 是 一 个 垂直 边缘 检测 器 








读者 可 能 早 就 想 问 为 什么 我 们 要 对 卷 积 感 兴趣 ， 那 么 图 6-6 中 的 示 
例 可 能 会 给 出 第 一 个 提示 。 在 这 个 示例 中 ， 输 入 图 像 是 一 个 10x10 算 
阵 ， 中 心 附近 的 4x8 分 块 都 是 数字 1， 周 围 被 数字 0 包围 。 核 则 选择 成 第 
一 列 为 (-1, -2, -1)， 第 三 列 为 (1, 2, 1)， 正 好 与 第 一 列 符号 相反 ， 而 中 间 
列 为 全 0。 这 样 选择 的 核 ， 有 如 下 几 个 效果 : 





。 将 这 个 郑 积 核 应 用 于 输入 图 像 中 的 一 个 3x3 分 块 时 ， 如 采 分 其 之 中 
的 所 有 像素 值 都 相同 ， 则 卷 积 的 输出 将 为 0; 

。 将 这 个 卷 积 核 应 用 于 左 列 值 高 于 右 列 值 的 图 像 分 其 时 ， 卷 积 的 输出 
将 为 负 ; 

。 将 这 个 卷 积 核 应 用 于 右 列 值 高 于 左 列 值 的 图 像 分 其 时 ， 卷 积 的 输出 
将 为 正 。 





这 个 卷 积 核 是 用 来 检测 得 入 图 像 中 的 垂直 边缘 的 。 输 入 图 像 左 侧 边 
缘 的 卷 积 值 为 正 ， 右 侧 边 缘 的 卷 积 值 为 负 。 这 和 疼 6-6 中 的 卷 积 结果 正 


好 一 致 。 


图 6-6 中 使 用 的 核 是 被 大 量 应 用 所 采用 的 经 典 核 ， 称 为 Sobel 算 村 
核 。 如 末 将 这 个 核 翻 转 90*， 束 可 以 得 到 一 个 用 于 检测 水 平 边缘 的 核 。 
用 同样 的 方式 ， 还 可 以 定义 其 他 矢 积 核 ， 用 于 模糊 或 锐 化 图 像 、 检 测 角 
落 ， 以 及 更 多 其 他 的 功能 。 很 多 核 都 可 以 在 标准 的 图 像 处 理 库 中 找到 。 


苍 积 最 有 趣 的 功能 是 从 图 像 数 据 中 抽取 有 价值 的 信息 ， 而 我 们 预测 
围棋 数据 下 一 步 动 作 的 应 用 正 需 要 这 个 功能 。 在 上 面 的 例子 中 ， 我 们 选 
择 了 一 个 特定 的 卷 积 核 ， 但 在 神经 网 络 中 ， 卷 积 核 并 不 由 人 选 定 ， 而 是 
通过 反 回 传播 算法 从 数据 中 学 习 出 来 。 





到 目前 为 止 ， 我们 讨论 的 情形 还 只 限于 如 何 对 一 个 输入 图 像 应 用 一 
个 卷 积 核 。 但 通常 来 说 ， 将 多 个 核 应 用 到 多 个 图 像 并 生成 多 个 输出 图 像 
的 情形 应 用 更 加 广泛 。 应 该 如 何 做 到 这 一 点 呢 ? 假 设 有 4 个 输入 图 像 ， 
并 定义 了 4 个 核 ， 那 么 可 以 将 每 个 输入 图 像 的 卷 积 相 加 ， 得 到 一 个 输出 
图 像 。 在 后 文中 ， 我 们 把 这 种 卷 积 得 出 图 像 称 为 特征 映 映 《feature 
map) 。 接 着， 如 果 想 要 把 生成 的 特征 映射 增加 到 5 个 的 话 ， 那 就 需要 
把 为 每 个 输入 图 像 定 义 的 核 的 个 数 增加 到 5 个 。 这 种 通过 使 用 n x m 个 卷 
积 核 将 n 个 输入 图 像 映 射 到 m 个 特征 映射 的 过 程 ， 称 为 一 个 知 积 层 。 图 6- 
7 对 这 种 情况 进行 了 说 明 。 








1 eh 
层 中 ， 总 共有 20 个 卷 积 过 滤器 。 


© A 
每 个 分 块 ， 将 4 个 输入 
卷 积 的 结果 累加 起 来 。 


/ 

















@ 对 于 每 个 输入 图 像 和 每 个 
特征 映射 ， 有 一 个 过 滤器 
连接 两 者 。 


图 6-7 在 卷 积 层 中 ， 卷 积 核对 多 个 输入 图 像 进行 操作 ， 以 产生 指定 数量 的 特征 映射 





以 这 种 方式 看 ， 卷 积 层 是 将 多 个 输入 图 像 变换 为 多 个 输出 图 像 ， 从 
而 抽取 输入 的 相关 空间 信息 的 方法 。 读 者 可 能 已 经 料 到 ， 卷 积 层 还 可 以 
链 式 连接 起 来 形成 神经 网 络 。 仅 由 卷 积 层 和 稠密 层 组 成 的 网 络 通 音 称 为 
卷 积 神经 网 络 ， 或 简称 为 卷 积 网 络 。 








张 量 在 深度 学 习 中 的 应 用 





我 们 已 经 说 过 ， 卷 积 层 的 输出 是 一 堆 图 像 。 这 么 思考 当然 会 对 理解 
有 所 帮助 ， 但 其 实 卷 积 还 有 更 多 的 内 容 。 类 比 来 说 ， 癌 量 (一 维 ) 由 多 
个 元 素 组 成 ， 但 它 也 不 仪 仅 是 一 堆 数 字 。 同 样 ， 窍 阵 ( 二 维 ) 由 多 个 列 
铝 量 组 成 ， 但 它 还 具有 内 在 的 二 维 结构 ， 可 以 用 于 和 矩阵 乘法 和 其 他 操作 
《如 卷 积 ) 。 卷 积 层 的 输出 具有 三 维 结构 。 夫 积 层 中 的 过 小 絮 甚 至 还 多 
了 一 个 维度 ， 具 有 四 维 结构 〈 对 于 输入 和 输出 图 像 的 每 个 组 合 有 一 个 二 








维 的 过 滤器 ) 。 不 仅 如 此 ， 高 阶 的 深度 学 习 技 术 常 常会 处 理 更 高 维度 的 
数据 结构 。 











在 线性 代数 中 ， 癌 量 和 和 矩阵 的 高 维 推广 称 为 张 量 。 附 录 人 A 有 对 张 量 
更 详细 的 描述 ， 这 里 就 不 深入 讨论 了 。 对 本 书 而 言 ， 我 们 并 不 需要 张 量 
的 正式 定义 。 除 概念 上 的 了 解 之 外 ， 张 量 这 个 名 称 还 能 为 我 们 提供 方便 
的 术语 ， 在 后 面 的 章节 中 将 会 用 到 。 例 如 ， 卷 积 层 输 出 的 图 像 集合 可 以 
称 为 三 阶 张 量 〈3-Tensor) 。 卷 积 层 中 的 四 维 过 滤器 则 形成 一 个 四 阶 张 
量 〈4-Tensor) 。 我 们 可 以 把 卷 积 操作 换 一 种 说 法 : 在 三 阶 张 量 〈 输 入 
图 像 )》 上 进行 四 维 运算 〈 卷 积 过 滤器 ) ， 并 转换 为 另 一 个 三 阶 张 量 。 


更 通俗 地 说 ， 顺 序 神经 网 络 是 一 步 步 对 不 同 维度 的 张 量 进行 转换 的 
机 制 。 输 入 数据 依靠 张 量 的 “流动 ”通过 网 络 ， 这 也 正 是 TensorFlow 的 名 
称 由 来 。TensorFlow 是 谷歌 开发 的 流行 机 器 学 习 库 ， 可 以 用 来 运行 Keras 


模型 。 


注意 ， 在 上 面 的 讨论 中 ， 我 们 只 涉及 了 如 何 通过 卷 积 层 将 数据 前 回 
反馈 ， 而 没有 讨论 如 何 进行 反问 传播 。 我 们 特意 忽略 了 这 一 部 分 是 因为 
它 在 数学 上 超出 了 本 书 的 范围 ， 而 且 更 重要 的 是 ， 反 问 传 播 过 程 已 经 被 
Keras 处 理 好 了 。 


卷 积 层 的 参数 通常 比 与 其 复杂 度 相 似 的 稠密 层 要 少 得 多 。 如 果 要 在 
28x28 输 入 图 像 上 定义 3x3 卷 积 核 ， 则 对 应 输出 大 小 为 26x26， 这 样 的 卷 
积 层 将 具有 3x3 = 9 个 参数 。 在 卷 积 层 中 ， 我 们 通常 还 会 把 偏差 项 添加 到 


每 个 卷 积 的 输出 中 ， 从 而 产生 总 共 10 个 参数 。 如 果 将 它 与 一 个 拥有 
28x28 输 入 向 量 和 26x26 的 输出 向 量 的 稠密 层 进行 比较 ， 则 这 个 稠密 层 将 

具有 28x28x26x26 = 529 984 个 参数 ， 这 还 不 包括 偏差 项 。 不 过 ， 卷 积 运 
算 在 计算 上 比 稠密 层 所 使 用 的 常规 算 阵 乘法 代价 更 高 郧 。 


6.4.2 ”用 Keras 构 建 卷 积 神 经 网 络 





要 使 用 Keras 构 建 和 运行 卷 积 神经 网 络 ， 我 们 需要 使 用 一 种 名 
为 Conv2D 的 新 层 ， 这 种 层 可 以 对 二 维 数据 《例如 围棋 棋盘 数据 ) 执行 
卷 积 操 作 。 我 们 还 将 了 解 另 一 个 名 为 Flatten 的 层 ， 这 种 层 可 以 将 卷 积 
层 的 输出 展 平 为 向 量 ， 然 后 它 才 可 以 将 输送 到 稠密 层 中 。 


首先 ， 输 入 数据 的 预 处 理 步 又 会 和 之 前 略 有 人 不同。 我 们 不 再 直接 展 
平 围 棋 棋 盘 数 据 ， 而 是 原样 保持 其 二 维 结构 ， 如 代码 清单 6-16 所 示 。 








代码 清单 6-16 加载 和 预 处 理 转换 卷 积 神经 网 络 的 棋盘 数据 








import numpy as np 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.layers import Conv2D, Flatten <--- 导入 两 个 新 层 ， 一 个 层 是 二 维 





卷 积 层 ， 男 一 个 层 可 以 将 输入 展 平 为 向 量 





np.random. seed(123) 
X = np.load('../generated games/features-46k.npy') 
Y = np.load('../generated games/labels-46k.npy') 


samples = X.shape[6] 

















size = 9 
input_shape = (size, size, 1) <--- 输入 数据 的 形状 是 三 维 的 ;我 们 使 用 一 个 平 
面 ， 内 容 是 9x9 棋 盘 




















X = X.reshape(samples，size，size，1) <--- 接着 相应 地 将 输入 数据 进行 形状 变 
换 


train samples = int(6.9 * samples) 
X train, X test = X[:train samples|], X[train samples:] 
Y_train, Y test = Y[:train samples], Y[train samples:] 





接 下 来 就 可 以 用 Keras 的 Conv2D 对 象 来 构建 网 络 了 。 我 们 使 用 两 个 
卷 积 层 ， 然 后 将 第 二 个 卷 积 的 输出 展 平 ， 再 连接 两 个 稠密 层 ， 最 终 达 到 
的 输出 尺寸 是 与 前 面相 同 的 9x9， 如 代码 清单 6-17 所 示 。 


























代码 清单 6-17 用 Keras 为 围棋 数据 构建 一 个 人 简 蛙 的 卷 积 神经 网 络 














model = Sequential() 
model.add(Conv2D(filters=48, <--- 网 络 的 第 一 层 是 一 个 Conv2D 层 ， 具 有 48 个 输 
出 过 滤器 














kernel_size=(3，3)， <--- 对 于 这 一 层 ， 选 择 3x3 卷 积 核 
activation='sigmoid '， 
padding= "same '， 
























































输出 尺寸 和 输入 尺寸 保持 一 致 
input shape=input_shape)) 











model.add(Conv2D(48, (3, 3), <--- 第 二 层 也 是 一 个 卷 积 层 。 为 简洁 起 见 ， 省 略 f 
ilters 和 kernel size 参 数 

padding='same', 

activation='sigmoid ')) 




















model.add(Flatten()) <--- 然后， 将 前 面 卷 积 层 的 三 维 输出 展 平 








model.add(Dense(512, activation='sigmoid') 
model.add(Dense(size * size, activation='sigmoid')) 
个 稠密 层 ， 和 MLP 示 例 中 所 做 一 样 


model.summary'( ) 








这 个 模型 的 编译 、 运 行 和 评估 过 程 应 当 与 前 面 MLP 示 例 的 过 程 完 全 
相同 。 唯 一 更 改 的 内 容 是 输入 数据 的 形状 ， 以 及 模型 本 身 。 

如 果 现 在 运行 这 个 模型 ， 读 者 会 发 现 测试 准确 度 儿 乎 没有 变化 : 它 
应 该 还 是 在 2.3% 左 右 。 这 已 经 很 好 了 ， 因 为 我 们 还 有 一 些 能 够 充分 利 





用 卷 积 模型 特性 的 技巧 没有 使 用 呢 。 在 本 章 的 剩余 部 分 ， 我 们 将 介绍 更 
先进 的 深度 学 习 技术 ， 以 提高 动作 预测 的 准确 度 。 


6.4.3 ”用 池 化 层 缩减 空间 





池 化 “pooling) 是 一 种 在 大 多 数 卷 积 深 度 学 习 应 用 中 都 很 利 见 的 通 
用 拉 术 。 人 们 用 它 来 缩减 图 像 尺 寸 ， 以 减少 上 一 层 的 神经 元 数量 。 

凶 化 的 概念 简单 明了 : 通过 将 图 像 的 各 个 分 块 合并 成 或 者 说 池 化 
成 ) 单个 值 ， 来 对 图 像 进 行 回 下 采样 。 图 6-8 所 示 的 示例 中 ， 每 个 不 相 
交 的 2x2 分 块 都 只 保留 其 最 大 值 ， 因 此 图 像 尺 寸 最 终 缩减 到 原来 的 1/4。 








@ 开始 时 ， 我 们 有 一 个 8x8 和 矩阵 和 
一 个 大 小 为 2x2 的 池 化 核 。 
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@ 池 化 核 处 理 输入 矩阵 中 不 相交 的 2x2 分 块 ， 
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图 6-8 通过 应 用 2 x 2 最 大 池 化 核 ， 将 8 x 8 图 像 缩 减 为 4 x 4 的 图 像 











这 个 技术 称 为 最 大 池 化 max pooling) ， 池 化 过 程 操 作 的 不 相交 分 
块 的 尺寸 称 为 池 尺 寸 (pool size) 。 我 们 还 可 以 定义 其 他 类 型 的 池 。 例 


如 ， 可 以 计算 分 块 中 所 有 值 的 平均 值 ， 这 称 为 平均 池 化 (average 
pooling) 。 











可 以 在 卷 积 层 之 前 或 之 后 定义 一 个 神经 网 络 层 来 执行 池 化 功能 ， 如 
代码 清单 6-18 所 示 。 


代码 清单 6-18 ”向 Keras 模 型 添加 池 尺 寸 为 (2, 2) 的 最 大 池 化 层 


model.add(MaxPooling2D(pool size=(2, 2))) 


还 可 以 尝试 在 代码 清单 6-4 中 将 MaxPooling2D 蔡 换 
为 AveragePooling2D。 在 诸如 岁 像 识别 的 场景 中 ， 要 缩减 卷 积 层 的 输 
出 尺寸 的 话 ， 池 化 技术 往往 是 必 不 可 少 的 。 尽 管 由 于 这 个 操作 对 图 像 进 
行 了 加 下 采样 而 损失 了 部 分 信息 ， 但 在 大 大 减少 所 需 计 算 量 的 同时 ， 它 
也 能 保留 足够 的 信息 以 进行 相当 准确 的 预测 。 








在 实际 运行 池 化 层 实现 之 前 ， 我 们 还 要 再 讨论 其 他 几 个 能 够 帮助 我 
们 获得 更 加 准确 的 围棋 动作 预测 的 技术 工具 。 


6.5 ”预测 围 横 动作 概率 





自从 在 第 5 章 中 首次 引入 神经 网 络 以 来 ， 我 们 只 用 过 一 个 激活 函 
数 : sigmoid 激 活 函数 。 另 外 ， Re 
数 。 把 这 两 个 选择 作为 首次 尝试 都 不 错 ， 它 们 也 确实 在 深度 学 习 工 
中 占有 一 席 之 地 。 但 它们 并 不 特别 适合 我 们 的 应 用 场景 。 





归根 结 底 ， 当 预测 围棋 动作 时 ， 我 们 真正 关心 的 还 是 这 个 问题 : 对 


于 棋盘 上 每 一 个 可 能 的 落 子 动作 ， 它 能 够 成 为 下 一 步 动 作 的 可 能 性 
(ikely〉 是 多 少 ? 每 时 每 刻 棋盘 上 都 存在 许多 理想 的 候选 动作 。 我 们 
之 前 所 设立 的 深度 学 习 实验 ， 都 是 在 用 算法 从 数据 中 找到 下 一 步 最 好 的 
动作 。 但 说 到 底 ， 表 征 学 习 ， 尤 其 是 深度 学 习 ， 其 真正 的 强项 ， 是 可 以 
依赖 对 棋局 结构 的 充分 了 解 来 预测 移动 的 可 能 性 。 我 们 真正 需要 的 是 预 
测 所 有 可 能 动作 的 概率 分 布 (probability distribution ) 。 使 用 sigmoid 激 
活 函 数 则 无 法 保证 这 一 点 。 所 以 这 里 我 们 将 引入 softmax 激 活 函 数 ， 最 
后 一 层 可 以 用 它 来 预测 概率 。 

















6.5.1 在 最 后 一 层 使 用 softmax 汲 活 函 数 


softmax 激 活 函 数 是 logistic sigmoid 函 数 o 的 直接 推广 。 要 计算 向 量 x 
= (xX1, .…, xj) 的 softmax 激 活 函 数 ， 首 先 对 辐 量 的 每 个 元 素 应 用 指数 函数 ， 
即 计 算 e“*。 接 着 将 这 些 值 进行 归 一 化 (normalize〉 处 理 : 








Ti 
eT 
! 

和 I 


<A]=1 C7 


soft max(7z;) = 





根据 定义 ，softmax 激 活 函 数 的 各 个 分 量 元 素 均 为 非 负 值 ， 并 且 加 
起 来 总 为 1， 这 意味 着 softmax 激 活 函 数 输出 的 是 概率 值 。 让 我 们 计算 一 
个 例子 ， 看 看 它 是 如 何 工作 的 ， 如 代码 清单 6-19 所 示 。 








代码 清单 6-19 ”在 Python 中 定义 softmax 激 活 函 数 








import numpy as np 


def softmax(x): 
e x = np.exp(x) 
e x sum = np.sum(e x) 


returne x/e x sum 


x = np.array([166，166]) 
print(softmax(x)) 


在 Python 中 定义 好 softmax 激 活 函 数 之 后 ， 用 一 个 维度 为 2 的 示例 问 
量 来 计算 它 。 这 里 x = (100, 100)， 如 果 计 算 x 的 sigmoid 值 ， 结 果 将 接近 
(1 1)， 但 计算 它 的 softmax 值 ， 会 得 到 (0.5, 0.5)。 这 个 结果 应 该 和 我 们 所 
预期 的 相同 : 由 于 softmax 激 活 函数 值 的 总 和 为 1， 并 且 两 个 元 又 值 相 
同 ， 因 此 softmax 激 活 函 数 应 当 为 两 个 元 素 赋 予 相等 的 概率 。 








多 数 情况 下 ，softmax 激 活 函数 会 出 现在 神经 网 络 的 最 后 一 层 ， 这 
样 就 可 以 保证 预测 输出 的 是 概率 值 ， 如 代码 清单 6-20 所 示 。 


代码 清单 6-20 “在 Keras 模 型 最 后 添加 一 个 softmax 激 活 函数 的 稠密 层 


model.add(Dense(9*9，activation='softmax ') ) 


6.5.2 ”分 关 问 题 的 交叉 炳 损失 函数 





我 们 从 第 5 半 开 始 使 用 均 方 误差 作为 损失 函数 。 在 6.5.1 市 已 经 说 
过 ， 对 于 我 们 的 用 例 ， 它 并 不 是 最 佳 的 选择 。 现 在 让 我 们 继续 这 个 话 
题 ， 仔 细 探 讨 一 下 可 能 出 现 的 问题 ， 并 提出 一 个 可 行 的 符 代 方案 。 





回想 一 下 ， 我 们 将 动作 预测 的 用 例 归 为 一 个 分 类 (classification) 
问题 ， 它 有 9x9 个 可 能 的 类 别 ， 其 中 只 有 一 个 是 正确 的 。 正 确 的 类 别 被 
标记 为 1， 而 所 有 其 他 类 别 被 标记 为 0。 每 个 类 别 的 预测 值 始 终 都 是 一 个 
0 一 1 的 值 。 这 是 对 预测 数据 表现 方式 的 一 个 强 假设 ， 所 以 采用 的 损失 函 





数 也 应 当 反 映 这 种 假设 。 让 我 们 看 看 MSE 是 怎么 做 的 ， 它 对 预测 值 和 标 
签 的 差 做 了 一 个 平方 运算 ， 但 并 没有 利用 到 预测 值 范 围 限制 在 0~~1 的 事 
实 。 实 际 上 ，MSE 最 适合 的 问题 是 回归 (regression) 问题 ， 这 类 问题 
的 输出 是 连续 的 。 例 如 ， 预 测 一 个 人 的 吴 高 。 在 这 些 用 例 中 ，MSE 会 惩 
麟 那些 较 大 的 差异 。 而 在 我 们 的 方案 中 ， 预 测 值 与 实际 结果 之 间 的 绝对 
最 大 差异 只 有 1。 








MSE 的 另 一 个 问题 是 它 以 相同 的 方式 惩罚 所 有 81 个 预测 值 。 我 们 最 
终 只 关心 如 何 预 测 到 唯一 的 一 个 类 别 ， 并 标记 为 1。 假 设 有 一 个 模型 ， 
将 正确 的 动作 预测 为 0.6， 而 其 他 所 有 类 别 的 预测 值 除 一 个 0.4 之 外 都 为 
0。 在 这 种 情况 下 ， 均 方 误差 为 (1 -0.6)?+ (0- 0.4)2 = 2 x 0.42， 大 约 是 
0.32。 预 测 结果 是 正确 的 ， 但 两 个 非 零 预 测 值 的 损失 值 是 相同 的 ， 都 是 
大 约 0.16。 损 失 函 数 对 较 小 的 预测 值 也 给 予 同等 的 重视 ， 是 否 值得 ? 另 
一 种 情况 ， 假 设 模型 再 一 次 把 正确 的 动作 预测 为 0.6， 但 另外 还 有 两 个 
动作 分 别 得 到 了 0.2 的 预测 值 ， 则 相应 的 MSE 则 为 (0.4) + 2 x 0.22， 即 大 
约 0.24， 这 个 损失 值 显著 低 于 前 一 个 场景 。 但 是 ， 如 果实 际 情况 是 0.4 对 
应 的 预测 更 准确 ， 即 它 对 应 的 动作 实际 上 也 是 一 个 强 有 力 的 回应 动作 ， 
也 可 以 是 下 一 步 动 作 的 候选 呢 ?” 损 失 函 数 真 的 应 该 惩罚 这 种 情况 吗 ? 














考虑 到 这 些 问题 ， 我 们 引入 了 分 类 交叉 烂 损失 函数 (categorical 
cross-entropy loss function) ， 或 者 简称 交叉 习 损 失 。 对 于 模型 的 标签 9 
和 预测 值 y， 这 个 损失 函数 的 定义 如 下 : 


— Ylog(yi) 
1 


算 ， 


注意 ， 虽 然 这 个 公式 看 起 来 像 是 许多 项 的 总 和 ， 可 能 会 涉及 大 量 计 
但 对 于 我 们 的 用 例 ， 这 个 公式 可 以 归结 为 仅仅 一 项 ， 即 疡 值 为 1 的 那 





一 项 。 对 于 ;= 1 的 索引 i， 交 叉 焕 损失 函数 值 只 是 -log(y;)。 这 样 计算 量 
就 很 少 了 。 但 使 用 它 可 以 得 到 什么 好 处 呢 ? 


由 于 交叉 业 损 失 仅 惩 罚 标 签 为 1 的 项 ， 因 此 所 有 其 他 值 的 分 布 对 它 
没有 直接 影响 。 例 如 ， 上 面 例 子 中 正确 的 下 一 步 预测 值 为 0.6 的 情 
况 下 ， 将 其 他 的 动作 预测 为 一 个 0.4 或 者 两 个 0.2 并 没有 区 别 。 这 两 
种 情况 的 交叉 炉 损失 都 是 -log(0.6) = 0.51。 

交叉 炳 损失 适用 于 [0, 1] 的 范围 。 假 如 模型 对 实际 正确 的 下 一 步 动 作 
预测 出 的 概率 为 0， 那 么 这 个 预测 就 错 了 。 我 们 知道 log(1) = 0， 并 
且 在 0~~1 的 范围 内 ， 当 x 逐渐 接近 0 时 ，-log(x) 会 接近 无 穷 大 ， 这 意 
味 着 -log(x) 会 变 得 任意 大 而 不 只 是 像 MSE 那 样 呈 平 方 增长 〉。 
此 外 ， 当 x 接近 1 时 ，MSE 会 更 快 地 下 降 ， 这 意味 着 不 太 可 信 的 预测 
会 得 到 更 小 的 损失 。 图 6-9 给 出 了 MSE 和 交叉 箭 损失 的 可 视 化 对 
bes 





30 一 交叉 炳 损失 
a MSE 











图 6-9 ”标记 为 1 的 类 别 的 MSE 与 交 广 烂 损失 的 关系 图 。 交 广 和 损 失 对 范围 [0, 1] 中 的 每 个 值 赋予 





了 较 高 的 损失 值 


交叉 燃 损 失 与 MSE 的 为 一 个 关键 的 区 别 ， 是 它 在 随机 梯度 下 降 
(SGD) 学 习 过 程 中 的 表现 。 实 际 上 ， 当 接近 更 高 的 预测 值 《 即 y 越 来 
越 接 近 1) 时 ，MSE 的 梯 民 更 新 变化 会 变 得 越 来 越 小 ， 因 此 和 学习 速 度 通 
常会 放 慢 。 与 此 相 比 ， 使 用 交叉 炳 损失 时 并 没有 显示 类 似 SGD 的 这 种 减 
速 情况 ， 并 且 参 数 更 新 的 变化 与 预测 值 和 真实 值 之 间 的 差异 成 正比 。 我 
们 无 法 在 这 里 更 深入 介绍 ， 但 对 我 们 的 动作 预测 应 用 场景 来 说 ， 这 是 一 
个 巨大 的 好 处 。 














使 用 分 类 交叉 和 损 失 函 数 而 不 是 MSE 编 译 Keras 模 型 非常 容易 ， 如 
代码 清单 6-21 所 示 。 

















代码 清单 6-21 使 用 分 类 交叉 业 损 失 函 数 编译 Keras 模 型 











model.compile(loss='categorical crossentropy'...) 


有 了 交 广 燃 损 失 函 数 和 softmax 激 活 函 数 这 两 个 工具 ， 我 们 现在 就 
可 以 更 好 地 处 理 分 类 标签 并 使 用 神经 网 络 预 测 概 率 了 。 结 束 本 章 之 前 ， 
让 我 们 再 学 习 两 种 搁 术 ， 它 们 能 够 对 构建 更 深 的 〈 即 具有 更 多 层 的 ) 网 
络 有 所 帮助 。 


6.6 ”使 用 丢弃 和 线性 整流 单元 构建 更 深 的 网 络 


到 目前 为 止 ， 我 们 还 没有 构建 超过 2 一 4 层 的 神经 网 络 。 也 许 读 者 会 
青 测 ， 直接 再 多 加 一 些 相似 的 层 ， 是 不 是 束 能 让 结果 得 到 改善 呢 ? 如果 
真是 这 样 的 话 确实 会 很 好 ， 但 现实 中 还 需要 多 考虑 儿 方 面 问 题 。 虽 然 继 
续 构 建 越 来 越 深层 的 神经 网 络 ， 会 增加 模型 所 具有 的 参数 数量 ， 从 而 增 








强 它 适 配 输 入 数据 的 能 力 ， 但 也 可 能 直到 一 些 问题 。 可 能 导致 失败 的 主 
要 原因 之 一 是 过 拟 合 (overfitting〉: 模型 在 预测 训练 数据 的 时 候 会 变 
得 越 来 越 好 ， 但 在 测试 数据 上 运行 则 效果 欠 佳 。 在 更 加 极端 的 情况 下 ， 
模型 能 够 完全 预测 甚至 完全 记 住 它 学 习 过 的 数据 ， 但 对 和 有 不 同 的 新 数 
据 ， 却 完全 不 知道 该 怎么 做 了 。 这 种 模型 是 没有 实际 用 处 的 。 模 型 需要 
有 其 有 汉化 能 力 ， 对 于 预测 像 围 棋 这 样 复杂 的 游戏 中 的 下 一 步 动作 的 模型 
来 说 尤其 如 此 。 无 论 人 花费 多 少时 间 收 集训 练 数据 ， 模 型 都 会 过 到 从 未 见 
过 的 棋局 。 总 而 言 之 ， 重 要 的 是 寻找 强 有 力 的 下 一 步 动 作 。 








6.6.1 通过 丢弃 神经 元 对 网 络 进行 正则 化 


防止 过 拟 合 是 机 器 学 习 中 的 常见 问题 。 我 们 可 以 找到 许多 关于 解决 
过 拟 合 问 题 的 正则 化 技术 (regularization techniques) 的 文献 。 深 度 神经 
网 络 可 以 应 用 其 中 一 种 看 似 简 单 但 实际 上 效 末 极 佳 的 技术 : 丢 径 
Cdropout) 。 网 络 中 的 一 层 如 果 设 置 了 丢弃 选项 ， 那 么 在 每 个 训练 步骤 
中 ， 它 会 随机 挑选 几 个 神经 元 ， 并 将 它们 设置 为 0。 也 就 是 说 ， 我 们 把 
这 些 神 经 元 从 训练 过 程 中 完全 丢弃 ， 在 下 一 个 训练 步骤 中 ， 再 随机 选择 
并 丢弃 新 的 神经 元 。 我 们 通常 通过 指定 天价 紊 〈dropout rate， 即 在 当前 
层 中 丢弃 神经 元 的 比率 ) 来 完成 这 个 功能 的 设置 。 图 6-10 展 示 了 一 个 于 
弃 示 例 层 ， 其 中 每 个 小 批量 (包括 前 向 传递 和 反问 传递 ) 的 神经 元 被 于 
弃 的 概率 为 50%。 











@ 在 这 个 神经 网 络 示例 中 ， 有 一 个 @ 下 之 后 连接 一 个 丢弃 率 为 50% 
包含 6 个 输出 神经 元 的 层 。 丢弃 层 。 在 每 次 训练 过 程 中 ， 它 会 
隐 宙 于 开本 的 入 要 和 











\ @@ 剩余 的 神经 元 被 传递 到 
一 一 白 一 -多 玫 一 下 一 层 ， 并 最 终 参与 到 
反 向 传播 中 。 








图 6-10 ”对 于 每 一 个 小 批量 数据 ， 丢 弃 率 为 50% 的 丢弃 层 将 随机 选择 一 半 神 经 元 丢弃 





过 程 背后 的 基本 原理 是 : ee 
ws 攻 个 神经 网 络 也 不 会 ) 过 度 专 注 于 给 定 的 数据 。 每 一 层 必须 足 
ea 
生 过 拟 合 。 





在 Keras 中 ， 可 以 按 代码 清单 6-22 所 示 的 方式 定义 一 个 指定 丢弃 率 
(参数 rate) 的 Dropout 层 。 


代码 清单 6-22 ”导入 Dropout 层 ， 并 将 其 添加 到 Keras 模 型 








from keras.layers import Dropout 





model.add(Dropout(rate=0.25)) 


在 顺序 神经 网 络 里 ， 任 意 其 他 类 型 的 层 也 都 可 以 像 这 样 添加 丢 径 
层 。 尤 其 是 在 深度 较 局 的 网 络 架 构 中 ， 添 加 丢弃 层 通 常 是 必 不 可 少 的 。 














6.6.2 ”线性 整流 单元 激活 函数 








作为 本 章 的 最 后 一 个 部 分 ， 在 本 节 中 我 们 将 了 解 线性 整流 单元 
CReLU) 激活 函数 。 研 究 表明 ， 对 于 深度 网 络 ， 这 个 函数 的 结果 通常 
比 sigmoid 或 其 他 激活 函数 更 好 。 图 6-11 展 示 了 ReLU 的 形状 。 





ReLU 
10 


0 
10 -5 0 5 10 


图 6-11 ReLU 激 活 函 数 会 将 负 值 输入 设 为 0， 正 值 输入 保持 不 变 


ReLU 以 将 猴 值 输入 设 为 0 的 方式 忽略 负 值 输入 ， 而 正 值 输入 则 保持 
不 变 。 因 此 ， 正 信号 越 强 ，ReLU 的 激活 度 就 越 强 。 这 样 解释 的 话 ， 线 
性 整流 单元 激活 函数 非 第 接近 大 脑 中 神经 元 的 简单 模型 较 轮 的 信号 被 
忽略 ， 但 较 强 的 信号 激发 神经 元 。 除 这 个 基本 类 比 之 外 ， 我 们 不 会 进 一 
步 强 调 或 驶 斤 ReLU 更 多 理论 上 的 好 处 ， 但 注意 ， 使 用 它们 通常 会 产生 





令 人 满意 的 结果 。 要 在 Keras 中 使 用 ReLU， 可 以 在 层 的 activation 参 
数 中 用 relu 蔡 换 sigmoid， 如 代码 清单 6-23 所 示 。 








代码 清单 6-23 ”为 一 个 Dense 层 添加 一 个 线性 整流 激活 函数 


from keras.layers import Dense 





model.add(Dense(activation='relu')) 


6.7 构建 更 强大 的 围棋 动作 预测 网 络 





本 章 前 面 几 节 涵盖 了 很 多 方面 的 知识 ， 不 仅 介 绍 了 有 具有 最 大 池 化 层 
的 卷 积 网 络 ， 还 介绍 了 交叉 烂 损失 函数 、 最 后 一 层 的 softmax 激 活 函 数 

以 及 用 于 正则 化 的 丢 痉 和 ReLU 激 活 函 数 ， 这 些 功能 都 可 以 用 来 提高 神 

经 网 络 的 性 能 。 在 本 章 结束 时 ， 让 我 们 把 学 到 的 所 有 新 知识 集成 起 来 ， 

形成 一 个 新 的 神经 网 络 ， 并 用 于 围棋 动作 预测 的 应 用 场景 ， 看 看 它 现 在 
会 如 何 表现 。 


首先 让 我 们 回顾 一 下 如 何 加 载 围 棋 数 据 ， 用 简单 的 单 平面 编码 需 进 
行 编码 ， 并 转换 为 适合 卷 积 网 络 的 形状 ， 如 代码 清单 6-24 所 示 。 


























代码 清单 6-24 ”加 载 并 预 处 理 卷 积 神经 网 络 的 围棋 数据 














import numpy as np 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Flatten 
from keras.layers import Conv2D, MaxPooling2D 
np.random. seed(123) 


X 
Y 


np.load('../generated games/features-46k.npy') 
np.load('../generated games/labels-46k.npy') 


samples = X.shape[6] 


size = 9 
input_shape = (size, size, 1) 


X = X.reshape(samples, size, size, 1) 


train samples = int(6.9 * samples) 
xX train, X test 
Y_train, Y_ test 


X[:train samples|], X[train samples:] 
Y[:train samples], Y[train samples:] 





接 下 来 ， 让 我 们 对 代码 清单 6-17 中 的 卷 积 网 络 进行 强化 ， 如 下 所 








。 保持 其 基本 架构 不 变 ， 先 从 两 个 卷 积 层 开始 ， 然 后 连接 一 个 最 大 池 
化 层 ， 最 后 以 两 个 稠密 层 结 

。 添加 3 个 用 于 正则 化 的 丢弃 层 : 每 个 卷 积 层 之 后 各 一 个 ， 外 加 第 一 
个 稠密 层 之 后 的 一 个 。 丢 弃 率 为 50%。 

。 将 输出 层 的 激活 函数 更 改 为 softmax， 将 所 有 内 部 层 的 激活 函数 更 
改 为 ReLU。 

。 将 损失 函数 由 均 方 误差 更 改 为 交 义 焕 损 失 。 


让 我 们 来 看 看 这 个 模型 在 Keras 中 的 样子 ， 如 代码 清单 6-25 所 示 。 








代码 清单 6-25 ”使 用 丢弃 和 ReLU 构 建 围 棋 数据 的 卷 积 网 络 




















model = Sequential() 
model.add(Conv2D(48, kernel size=(3, 3), 
activation= 'relu '， 
padding= "same '， 
input_shape=input_shape)) 
model.add(Dropout(rate=6.5)) 
model.add(Conv2D(48, (3, 3), 
padding="'same', activation="'relu')) 
model.add(MaxPooling2D(pool size=(2,2))) 
model.add(Dropout (rate=6.5)) 
model.add(Flatten()) 
model.add(Dense(512, activation='relu')) 
model.add(Dropout (rate=0.5)) 
model.add(Dense(size * size, activation='softmax')) 


model.summary'( ) 


model.compile(loss='categorical crossentropy', 
optimizer="'sgd', 
metrics=['accuracy']) 








评估 这 个 模型 ， 可 以 运行 代码 清单 6-26 中 的 代码 。 


池 
HT 
总 
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代码 清单 6-26 ”评估 增强 的 卷 积 网 络 
































model.fit(X train, Y_ train， 
batch size=64,， 
epochs=166， 
Verbose=1， 
validation data=(X test, Y test) ) 
score = model.evaluate(X test, Y test, verbose=0) 
print('Test loss:', score[06]) 
print('Test accuracy:', score[1]) 





注意 ， 上 面 的 示例 将 训练 迭代 周期 从 之 前 的 15 增 加 到 了 100。 这 个 
示例 的 输出 看 起 来 像 这 样 : 





Layer (ype) utput Shape param# 
conv2d 1 (Conv2D)) (one99 4 4 
dropout 1 (Dropout) (None, 9, 9, 48) 8 
Comad 2 co one, 9 9 48) 20784 
max_pooling2d_1 (MaxPooling2 (None, 4, 4, 48) 9 
dropout 2 (Dropout) (None, 4, 4,48) 8 

dense i (ense) Cone, sa 393728 


dense 2 (Dense) (None, 81) 41553 


Total params: 456,545 
Trainable params: 456,545 
Non-trainable params: 6 


Test loss: 3.81986572336 
Test accuracy: 6.68349426884942 





使 用 这 个 模型 ， 测 试 准确 率 可 达 8% 以 上 ， 与 之 前 的 基线 模型 相 比 
有 了 很 大 的 改进 。 另 外 ， 注 意 输 出 中 的 Trainable params : 
456,545。 回 顾 一 下 ， 我 们 基线 模型 有 超过 600 000 个 可 训练 参数 。 也 就 
是 说 ， 在 将 准确 率 提高 3 倍 的 同时 ， 我 们 还 减少 了 权重 数量 。 这 意味 着 
性 能 的 提高 应 当归 功 于 新 模型 的 结构 ， 而 不 仅仅 是 其 尺寸 。 


但 从 坏 的 一 面 来 说 ， 新 模型 的 训练 需要 更 长 的 时 间 。 这 很 大 程度 上 
是 因为 增加 了 训练 的 迭代 周期 数 。 这 个 模型 要 学 习 更 复杂 的 概念 ， 因 此 
需要 更 多 的 训练 量 。 如 宋 我 们 有 足够 耐心 将 epochs 设 置 得 更 高 ， 那 么 
这 个 模型 的 预测 准确 率 还 可 以 再 提高 几 个 百分点 。 第 7 章 将 会 介绍 更 高 
级 的 优化 器 ， 以 加 速 训练 过 程 。 








接 下 来 ， 让 我 们 把 示例 棋局 输送 给 模型 ， 看 看 它 推荐 的 下 一 步 动作 
是 什么 : 





G@OOOOOOOCS 
G@OOOOOOOCD 
G@OSOOOOOOCS 





G@OOOOOOOCS 


6 . 0 
6 . 0 
0. 0 
0. 0 
0. 0 
0. 0 
6 . 0 
6 . 0 
6 . 0 








棋盘 上 得 分 最 高 的 动作 得 分 为 0.052， 对 应 图 6-4 中 的 A 点 。 在 这 个 





点 落 子 ， 黑 方 可 以 吃 掉 白 方 2 颗 子 。 这 个 模型 可 能 还 没 达到 围棋 大 师 的 
水 准 ， 但 它 已 经 学 会 了 如 何 吃 挥 对 方 棋子 ! 当然 ， 这 个 结果 还 远 非 完 


美 : 


六 





在 已 经 摆 放 了 棋子 的 交叉 点 上 ， 它 仍然 会 计算 出 较 高 的 得 分 。 





讨论 至 此 ， 我 们 鼓励 读者 去 尝试 不 同 的 模型 参数 ， 并 观察 会 友 生 什 


。 下 面 几 个 思路 可 以 帮助 你 上 手 。 


在 这 个 问题 中 ， 下 面 哪 种 情况 效果 最 好 ? 最 大 池 化 ， 平 均 池 化 还 是 
不 用 池 化 ? “〈 注 意 ， 去 卸 池 化 层 会 增加 模型 中 可 训练 参数 的 数量 。 
因此 ， 请 记 住 ， 如 宋 发 现 准确 率 有 所 提高 ， 就 需要 付出 额外 的 计算 


量 。) 


时 。 

是 添加 第 三 个 卷 积 层 更 有 效 ， 还 是 在 现 有 的 两 个 层 中 增加 过 滤器 的 
数量 更 好 ? 

在 保持 结果 民 好 的 前 提 下 ， 能 把 倒数 第 二 个 Dense 层 缩小 到 多 少 ? 
更 改 丢 弃 率 可 以 改善 结果 吗 ? 

在 不 使 用 卷 积 层 的 情况 下 能 得 到 多 高 的 准确 率 ? 将 这 个 模型 与 使 用 
了 CNN 的 结果 最 好 的 模型 进行 对 比 ， 模 型 尺寸 和 训练 时 间 有 多 大 差 


别 ? 








在 第 7 章 中 ， 我 们 将 应 用 本 章 学 到 的 所 有 技术 来 构建 一 个 深度 学 习 





的 围棋 机 器 人 ， 这 个 机 器 人 不 再 仅仅 用 模拟 棋局 数据 ， 而 是 在 实 盘 数据 
上 进行 训练 。 我 们 还 将 看 到 对 输入 数据 进行 编码 的 新 方法 ， 该 方法 能 够 
显著 地 提高 模型 性 能 。 通 过 这 些 技 术 的 结合 ， 我 们 将 能 够 构建 一 个 可 以 
预测 出 合理 动作 的 机 器 人 ， 人 至少 能 够 击败 围棋 初学 者 。 


6.8 ”小 结 


。 使 用 编码 器 可 以 将 棋盘 状态 转换 为 神经 网 络 的 输入 ， 这 是 将 深度 学 
习 应 用 于 围棋 的 重要 的 第 一 步 。 
。 使 用 树 搜索 生成 围棋 棋局 数据 ， 为 我 们 的 神经 网 络 提供 第 一 个 可 用 





的 数据 集 。 
。 Keras 是 一 个 功能 强大 的 深度 学 习 库 ， 可 以 用 它 创建 许多 有 意义 的 
深度 学 习 架 构 。 





。 卷 积 神经 网 络 可 以 利用 输入 数据 的 空间 结构 来 抽取 相关 特征 。 

。 使 用 季 化 层 可 以 缩减 图 像 太 寸 ， 从 而 降低 计算 复杂 上 度 。 

。 在 网 络 的 最 后 一 层 使 用 softmax 激 活 函数 ， 可 以 将 预测 的 输出 转换 
为 概率 值 。 

。 在 围棋 动作 预测 中 ， 使 用 分 类 交叉 燃 作 为 损失 函数 ， 是 比 均 方 误 莽 
损失 函数 更 目 然 的 选择 。 而 在 尝试 预测 连续 范围 内 的 数字 时 ， 均 方 
误差 更 有 用 。 

。 在 深层 网 络 染 构 里 ， 使 用 丢弃 层 可 以 轻松 地 避免 过 拟 合 。 

。 使 用 线性 整流 单元 代 答 sigmoid 激 活 函 数 ， 可 以 显著 提升 神经 网 络 
的 性 能 。 





第 7 草 ”从 数据 中 学 习 : 构建 深度 学 习 机 顺 


本 章 主 要 内 容 
。 下 载 并 处 理 真 实 围 棋 棋 详 。 
。 了 解 存 储 围 棋 棋 详 的 标准 格式 。 
。 用 这 套 棋 详 数 据 训 练 一 个 深度 学 习 模 型 ， 用 于 落 子 动作 预测 。 
。 用 更 复杂 的 棋盘 编码 器 创建 强大 的 围棋 机 器 人 。 
。 运行 目 己 的 实验 ， 并 进行 评估 。 


在 第 6 章 中 ， 我 们 对 构建 深度 学 习 应 用 的 许多 基本 要 系 有 了 基本 了 
解 ， 并 构建 了 几 个 神经 网 络 来 测试 已 经 掌握 的 工具 。 但 我 们 还 缺少 一 个 
关键 事物 : 可 用 于 学 习 的 优良 数据 。 有 监督 的 深度 神经 网 络 做 得 再 好 ， 
也 无 法 超越 提供 给 它 的 数据 。 然 而 到 目前 为 止 我 们 手 里 只 有 上 自行 生成 的 
数据 而 已 。 








在 本 章 中 ， 我 们 将 了 解 最 常见 的 围棋 数据 格式 ， 智能 游戏 格式 
(Smart Game Format，SGF) 。 绝 大 多 数 热 门 围棋 服务 器 支持 SGF 格 式 
棋谱 下 载 功能 。 在 本 章 中 ， 为 了 武装 用 于 围棋 动作 预测 的 深度 神经 网 
络 ， 我 们 需要 从 围棋 服务 器 上 下 载 很 多 SGF 文 件 ， 用 一 种 聪明 的 方法 对 


它们 进行 编码 ， 再 使 用 这 些 数据 去 训练 神经 网 络 。 这 样 训练 出 来 的 网 络 


将 比 前 几 章 中 的 任何 模型 都 强大 得 多 。 





图 7-1 展 示 了 本 章 结 束 时 我 们 构建 的 成 果 。 





读 到 本 章 结尾 ， 读 者 就 能 够 用 复杂 神经 网 络 运行 目 己 的 实验 ， 并 创 





造 属于 目 己 的 强大 围棋 机 器 人 。 不 过 第 一 步 我 们 需要 先 获取 真实 世界 的 
围棋 数据 。 
义 从 很 多 流行 的 围棋 服务 器 运行 
J 入 《如 KSS 王 下 载 国 模 模 洁 。 SM 
i | @ 围棋 数据 通常 采用 SGF 格 式 存储 。 


@@ 完成 网 络 的 训练 和 评估 后 ， 尝 试 
采用 不 同 的 网 络 参 数 和 棋盘 编码 
SGF 各 读 取 SGF 文 件 后 ， 需 要 对 器 ， 开 启 新 的 实验 周期 ， 直 至 机 


ee A et 
;4 二 坟 人 处 证， 以 提取 图 要 器 人 达到 令 人 满意 的 性 能 为 止 。 
“= We “ 





图 7-1 构建 一 个 深度 学 习 围 棋 机 器 人 ， 并 使 月 


服务 器 中 找到 月 


深度 学 习 实验 





< 己 @@ 接着 用 这 些 更 强大 的 数据 
接 下 来 ， 用 二 个 要 。 来 训练 一 个 用 于 动作 预测 
戏 状态 转换 为 机 器 的 深度 神经 网 络 。 
可 读 的 形式 。 











真实 的 围棋 数据 进行 训练 。 我 们 可 以 从 公共 围棋 











昌 于 训练 机 器 人 的 棋谱 。 在 本 章 中 ， 我 们 将 学 习 如 何 寻 找 这 些 棋谱 ， 并 将 它们 转 
换 为 训练 集 ， 再 训练 一 个 Keras 模 型 来 模仿 人 类 棋 手 的 决策 


7.1 导入 围棋 棋谱 


到 目前 为 止 我 们 所 用 的 围棋 数据 全 部 是 自己 生成 的 。 在 第 6 章 中 ， 
我 们 训练 了 一 个 深度 神经 网 络 来 为 生成 数据 预测 下 一 步 动作 。 这 种 情况 
下 ， 最 好 结果 也 只 能 是 让 预测 动作 尽量 贴近 生成 的 动作 而 已 ， 但 生成 数 
据 的 质量 是 由 树 搜 索 算法 决定 的 。 我 们 可 以 说 ， 提 供给 神经 网 络 的 数据 
决定 了 训练 出 的 深度 学 习 机 右 人 的 上 限 。 机 器 人 永远 无 法 超越 生成 数据 
的 棋 手 。 





如 果 改 用 棋 手 的 真实 棋谱 作为 神经 网 络 的 输入 ， 承 可 以 显 音 地 提高 
机 器 人 的 棋 力 。 接 下 来 我 们 会 使 用 世界 上 最 流行 的 围棋 平台 之 一 一 一 
KGS 围 棋 服 务 占 (KGS Go Server， 曾 称 为 Kiseido Go Server) 上 的 棋谱 
数据 。 在 深入 介绍 如 何 下 载 和 人 处理 KGS 数 据 之 前 ， 我 们 首先 介绍 一 下 围 
棋 数 据 的 数据 格式 。 


7.1.1 SGE 文 件 格式 


智能 游戏 格式 (Smart Game Format，SGF) 曾 称 为 智能 围棋 格式 
(Smart Go Format) ， 最 早 开发 于 20 世 纪 80 年 代 末 。 目 前 它 的 主要 版 本 
是 第 4 版 (表示 为 FF[4]〉， 发 布 于 20 世 纪 90 年 代 末 。SGF 是 一 种 基于 文 
本 的 简单 格式 ， 但 表达 能 力 很 强 ， 可 用 于 表示 围棋 游戏 、 围 棋 游 戏 的 变 
体 《〈 例 如 职业 玩家 的 游戏 评论 ) 以 及 其 他 类 型 的 棋盘 游戏 。 本 章 后 面 的 
内 容 中 ， 我 们 假设 所 处 理 的 SGF 文 件 是 基础 围棋 格式 ， 不 包含 任何 变 
体 。 我 们 将 在 本 节 介 绍 SGF 的 一 些 基础 知识 ， 如 果 读 者 想 了 解 更 多 相关 











言 息 ， 可 以 参考 Sensei’s Library 的 官方 网 站 。 








SGF 的 核心 内 容 是 棋局 的 元 数据 和 落 子 动作 记录 。 元 数据 的 格式 是 
用 两 个 大 写字 母 表 示 一 个 属性 名 称 ， 然 后 在 一 个 方 框 里 指定 它 的 值 。 例 
如 ， 在 尺寸 ( 即 属性 sz〉 为 9x9 的 围棋 上 进行 的 棋局 ， 在 SGF 中 编码 
为 SZ[9]。 围 棋 落 子 动作 的 编码 方式 如 下 : 落 在 棋盘 的 第 3 行 第 3 列 上 的 
白 子 ， 记 录 为 W[cc]， 而 黑 方 在 第 7 行 第 3 列 上 的 落 子 动作 则 表示 
为 B[gc]。 这 里 字母 B 和 W 代 表 棋 子 颜色 ， 而 行 和 列 的 坐标 则 按 字 母 顺 序 
编号 。 要 表示 跳 过 回合 ， 可 以 记录 为 空 的 动作 B[ ] 和 Ww[ ] 。 














下 面 我 们 展示 第 2 章 末 尾 的 完整 9x9 棋 盘 实 例 的 SGF 文 件 示 例 。 从 
SGF 内 容 可 以 看 到 ，SGE 的 当前 版 本 为 FF[4]， 这 是 一 局 围棋 游戏 〈 在 
SGF 中 ， 围 棋 的 游戏 编号 为 1， 即 GM[1] ) ， 棋 盘 尺 寸 为 
9x9 (SZ[9]) ， 让 0 子 CHA[8]) ， 贴 6 目 半 〈KM[6.5]) 。 游 戏 使 用 日 
式 规 则 CRU[Japenese]) ， 最 终结 果 为 白 方 胜 9 目 半 (RE[W+9.5])。 


(;FF[4] GM[1] SZ[9] HA[8] KM[6.5] RU[Japanese] RE[W+9.5] 

;Blgcj];W[lcc];B[lcgl];W[lgg];B[Ihf];Wigf];B[hg];Ww[hh];B[lgel;W[df];B[Ldg] 
;Wleh];B[cf];W[lbe];B[leg];W[fh];B[lde];W[lec];B[Lfb];Wleb];B[lea];W[dal 
;Bl[fa];W[cb];B[bf];W[fc];B[lgb];W[lfe];Blgd];W[lig];B[Lbd];Ww[he];B[ff] 
sW[fg];B[lef];W[hd];B[fd];Ww[bil];B[bh];w[bc];B[cd];wW[dc];B[Lac];w[ab] 


;Blad];W[hc];B[lci];W[led];B[lee];W[ldh];B[ch];W[dil];B[Lhb];Ww[ib];B[hal 

sW[ic];B[dd];W[lial];B[]; 

Tw[laaj[lbalj[lbbj[cal[db][eil][filj[lgh][lgi][hfj[hg][lhil][lid][ie][if] 
[ih] [ii] 

| 

W 








SGF 文 件 由 多 个 市 点 (node) 组 成 ， 市 反之 间 以 分 号 分 阳 。 第 一 个 
节点 包含 棋局 相关 的 元 数据 ， 即 棋盘 矿 寸 、 规 则 集 、 棋 局 结果 以 及 其 他 











背景 信息 。 后 续 每 个 市 点 代表 棋局 中 的 一 步 动 作 。 文 件 中 的 空白 是 完 

无 关 的 ， 束 算 把 上 面 的 示例 字符 串 折合 成 单行 文本 ， 结 果 仍 然 是 有 效 的 
SGF 文 件 。 在 文件 末尾 的 最 后 一 个 市 点 中 ，TW 之 后 列 出 日 方 占领 的 扣 

目 ，TB 之 后 列 出 黑 方 占领 的 点 目 。 注 意 ， 这 段 用 来 标识 地 盘 的 内 容 其实 
是 放 在 最 后 一 个 动作 〈W[]， 表 示 跳 过 回合 ) 节点 中 的 ， 可 以 把 它们 看 
作对 这 个 棋局 的 一 种 注释 。 





上 面 的 示例 描述 了 SGF 文 件 的 一 些 核心 属性 ， 并 展示 了 为 生成 训练 
数据 而 复 盘 棋谱 所 需 的 全 部 信息 。SGF 格 式 还 支持 更 多 的 功能 ， 但 主要 
都 用 于 为 棋谱 添加 评论 和 注释 ， 因 此 本 书 读者 不 需要 了 解 它 们 。 





7.1.2 ”从 KGS 下 载 围棋 棋谱 并 复 盘 


打开 u-go 的 网 站 ， 可 以 找到 各 种 格式 的 棋谱 (zip、tar.gz 等 ) 。 这 
是 一 个 从 KGS 围 棋 服务 器 上 收集 的 自 2001 年 以 来 棋谱 合集 。 在 这 个 合 
中 ， 对 三 双方 要 么 至 少 有 一 方 为 7 段 以 上 ， 要 么 双方 都 有 6 段 。 回 顾 一 下 
第 2 章 中 的 内 容 ， 段 位 是 从 1 段 到 9 段 越 来 越 强 ， 因 此 这 些 棋局 都 是 由 转 
棋 高 手 所 创造 的 。 另 外 请 注意 ， 这 里 所 有 的 棋局 都 是 在 19x19 的 标准 棋 
盘 上 进行 的 ， 而 在 第 6 章 中 我 们 生成 的 数据 只 用 了 简单 得 多 的 9x9 棋 盘 。 


对 预测 围棋 动作 来 说 ， 这 是 一 个 非常 强大 的 数据 集 。 我 们 将 在 本 草 
中 利用 它 来 造就 一 个 强大 的 深度 学 习 机 器 人 。 我 们 硕 望 能 够 目 动 下 载 这 
些 数 据 ， 其 步骤 是 获取 包含 各 个 文件 链接 的 HIML， 下 载 各 个 文件 ， 接 
着 分 析 文 件 ， 最 后 处 理 其 中 包含 的 SGF 棋 谱 。 








把 这 些 数据 转换 为 深度 学 习 模 型 的 输入 之 前 ， 首 先 需 要 在 主 dlgo 模 
块 中 创建 一 个 新 的 子 模块 名 为 data， 并 和 往常 一 样 放 入 空 的 _ init_.py 
文件 。 本 书 所 需 的 所 有 与 围棋 数据 处 理 相 关 的 内 容 都 放 到 这 个 子 模块 


中 。 


接 下 来 我 们 下 载 棋谱 数据 。 在 data 子 模块 中 添加 一 个 新 文件 


index_processor.py， 在 文件 里 创建 一 


个 名 为 KGSIndex 的 类 。 因 为 下 载 数 


据 这 一 步 是 完全 技术 性 的 工作 ， 它 既 不 涉及 围棋 知识 ， 又 不 涉及 机 器 学 
习 知 识 ， 所 以 我 们 在 这 里 省 略 了 实现 细节 的 介绍 。 如 果 读 者 感 兴趣 ， 可 
以 在 GitHub 代 码 库 中 找到 它 的 代码 。KGSIndex 的 实现 里 只 有 一 个 方法 


download_files， 后 面 我 们 会 用 到 。 


这 个 方法 会 将 u-go 网 站 上 的 棋谱 


下 载 到 本 地 ， 碍 找 其 中 所 有 的 相关 下 载 链接 ， 然 后 在 名 为 data 的 独立 文 
件 夹 中 下 载 相应 的 tar.gz 文 件 。 代 码 清单 7-1 展 示 了 它 的 调用 方式 。 


代码 








青 单 7-1 创建 包含 来 自 KGS 的 





from dlgo.data.index processor import KGSIndex 


index = KGSIndex() 
index.download files() 


>>> Downloading index page 


KGS-2617_12-19-1488-.tar.gz 1488 
KGS-2617_11-19-945-.tar.gz 945 


>>> Downloading data/KGS-2617 
>>> Downloading data/KGS-2617 


12-19-1488- .tar.gz 
11-19-945-.tar.gz 








围棋 


数据 的 压缩 文件 的 索引 





现在 下 载 的 数据 已 经 保存 在 本 地 了 ， 让 我 们 继续 处 理 它 ， 以 便 在 神 
经 网 络 中 使 用 。 





7.2 ”为 深度 学 习 准 备 围棋 数据 


第 6 音 中 介绍 过 一 个 围棋 数据 的 简单 的 编码 器 ， 它 是 融入 在 第 3 章 中 
介绍 的 Board 和 GameState 类 之 中 的 。 而 在 使 用 SGF 文 件 时 ， 首 先 必须 
提取 文件 的 内 容 《〈 即 前 面 提 到 的 文件 分 析 过 程 ) ， 并 依据 内 容 对 棋局 进 
行 复 盘 ， 以 便 能 够 为 围棋 游戏 框架 提供 必要 的 游戏 状态 信息 。 


7.2.1 ”从 SGF 棋 谱 中 复 盘 围棋 棋局 





要 从 SGF 文 件 中 读 取 围棋 游戏 状态 信息 ， 首 先 需 要 理解 和 实现 它 的 
格式 规范 。 虽 然 这 一 点 并 不 是 很 难 〈 再 怎么 说 ， 它 也 不 过 是 依据 固定 规 
则 对 一 串 文 本 进行 分 析 而 已 ) ， 但 它 并 不 是 构建 围棋 机 器 人 过 程 中 最 激 
动人 心 的 部 分 ， 并 且 要 确保 万 无 一 失 就 得 花费 大 量 的 时 间 和 精力 。 鉴 于 
这 些 原 因 ， 我 们 将 在 dlgo 中 引入 另 一 个 名 为 gosgf 的 子 模 块 ， 由 它 负 责 处 
理 SGF 文 件 的 所 有 逻辑 。 在 本 章 中 ， 我 们 把 这 个 模块 看 作 一 个 黑 盒 子 直 
接 使 用 。 如 果 读 者 想 了 解 更 多 关于 Python 解析 SGE 的 信息 ， 可 以 访问 我 
们 的 GitHub 代 码 库 。 











gosgf 模 块 改编 自 Gomill Python 库 。 


在 gosgf 模 块 中 ， 我 们 只 需要 依赖 一 个 实体 Sgf_game 就 可 以 满足 全 
部 需求 了 。 接 下 来 我 们 看 看 如 何 使 用 Sgf_game 加 载 SGE 洲 戏 样本 ， 逐 
个 读 出 游戏 信息 ， 并 把 每 一 回合 的 动作 执行 到 一 个 GameState 对 象 的 过 
程 。 图 7-2 展 示 了 一 局 用 SGF 命 令 表示 的 围棋 棋局 的 开头 部 分 。 








动作 。 / 
在 遍历 各 个 SGF 节 点 


Wilef] 时 ， 将 它们 逐个 执行 
到 GameState 对 象 上 。 


ww 


























图 7-2 ”根据 SGF 文 件 复 盘 棋谱 。 原 始 SGF 文 件 用 类 似 B[ee] 的 字符 串 对 落 子 动作 进行 纺 
码 。Sgf_game 类 负责 对 这 些 字符 串 解 码 ， 并 返回 成 Python 元 组 ， 然 后 就 可 以 把 这 些 动作 执行 











到 GameState 对 象 里 ， 重 现 整 个 棋局 过 程 〈 如 代码 清单 7-2 所 示 ) 























五 














代码 清单 7-2 ”使 用 围棋 框架 重 现 SGF 文 件 中 的 动作 























from dlgo.gosgf import Sgf_game ¢--- E 从 新 的 gosgf 模 块 导入 Sgf_game 类 
from dlgo.goboard fast import GameState, Move 

from dlgo.gotypes import Point 

from dlgo.utils import print board 











sgf_content = "(;GM[1]FF[4]SZ[9];B[ee];W[ef];B[ff]" + \ <--- 定义 一 个 示 
例 SGF 字 符 串 。 这 上 段 内 容 未 来 将 会 改 为 从 下 载 数据 中 解析 得 到 
";W[df];B[fe];wW[fc];B[lec];W[lgd];B[fb])" 











sgf_ game = Sgf_ game.from string(sgf_content) <--- 调用 from_string 方 法 创 
建 一 个 Sgf_game 实 例 





game_state = GameState.new game(19) 








for item in sgf game.main sequence iter(): <--- ” 壕 代 遍历 棋局 的 主 序列 。 我 
们 忽略 所 有 的 变化 和 注释 























color, move tuple = item.get move() <--- 主 序 列 中 的 各 项 是 (颜色 ， 动 作 
) 对 ， 其 中 “动作 ”是 一 对 棋盘 坐标 
if color is not None and move tuple is not None: 
row, Col = move_tuple 
point = Point(row + 1, col + 1) 
move = Move.play(point) 
game_state = game state.apply move(move) <--- 接着 把 读 出 的 动作 执 
行 到 当前 的 游戏 状态 中 


print_board(game_state.board) 



































简单 地 说 ， 这 个 注 程 就 是 在 得 到 一 个 有 效 的 SGF 字 符 串 后 ， 再 根据 
它 创 建 一 个 棋局 ， 它 的 主 序列 可 以 随意 迭代 过 历 。 代 码 清单 7-2 是 本 章 
的 核心 ， 它 为 继续 处 理 围棋 数据 以 进行 深度 学 习 提 供 了 一 个 大 致 的 杠 


架 。 
(1) 下 载 并 解析 围棋 游戏 压缩 文件 。 


(2) 友 代 遍历 这 些 压缩 文件 中 包含 的 每 个 SGF 文 件 ， 将 它们 作为 


Python 字符 串 读 出 ， 并 用 这 些 字 符 串 创建 一 个 sgf_game 实 例 。 


(3) 读 出 每 个 SGF 字 符 串 中 国 棋 棋 局 的 主 序列 ， 确 保 处 理 重 要 的 
细 市 (例如 设置 让 子 )， 并 将 生成 的 动作 数据 输入 GameState 对 象 中 。 


(4) 对 每 个 动作 使 用 一 个 Encoder 将 当前 棋盘 信息 编码 为 特征 ， 
并 将 动作 本 号 作为 标签 存储 ， 然 后 把 它 执 行 到 棋盘 上 。 这 样 就 可 以 动态 
地 创建 深度 学 习 动 作 预 测 数 据 了 。 





(5) 将 生成 的 特征 和 标签 存储 为 适当 的 格式 ， 以 便 未 来 可 以 再 次 
读 取 并 输送 到 深度 神经 网 络 。 





在 接 下 来 的 几 市 中 ， 我 们 将 非常 详细 地 描述 如 何 完成 这 5 项 任务 。 
把 这 些 数 据 处 理 好 之 后 ， 我 们 束 可 以 返回 到 动作 预测 应 用 ， 并 观察 这 些 
数据 会 如 何 影响 动作 预测 的 准确 率 。 





7.2.2 ”构建 围棋 数据 处 理 需 


在 本 市 中 ， 我 们 将 构建 一 个 围棋 数据 处 理 占 ， 它 可 以 把 原始 SGF 数 
据 转 换 为 机 器 学 习 算 法 的 特征 与 标签 。 这 会 是 一 个 处 理 时 间 比 较 长 的 实 
现 ， 因 此 我 们 将 它 拆 分 为 几 个 部 分 。 完 成 这 个 数据 处 理 器 的 构建 之 后 ， 
基于 真实 数据 的 深度 学 习 模 型 束 万 事 俱 备 了 。 








首先 在 新 的 data 子 模块 中 创建 一 个 processor.py 文 件 。 和 以 往 一 样 ， 
读者 也 可 以 从 GitHub 代 码 库 下 载 processor.py 的 副本 ， 然 后 阅读 其 中 的 实 
现 即 可 。 我 们 先导 入 几 个 processor.py 所 需 的 Python 核心 库 ， 如 代码 清单 





7-3 所 示 。 除 用 于 数据 处 理 的 NumPy 库 之 外 还 需要 不 少 用 来 处 理 文 件 的 
包 。 














代码 清单 7-3 ”数据 和 文件 处 理 所 需 的 Python 库 














import os .path 
import tarfile 
import gzip 
import glob 


import shutil 


import numpy as np 
from keras.utils import to categorical 





我 们 还 需要 导入 dlgo 模 块 下 之 前 构建 的 许多 核心 抽象 ， 如 代码 清单 
7-4 所 示 。 

















代码 清单 7-4 从 dlgo 模 块 导 入 数据 处 理 所 需 的 抽象 


from dlgo.gosgf import Sgf_game 

from dlgo.goboard fast import Board, GameState, Move 
from dlgo.gotypes import Player, Point 

from dlgo.encoders.base import get encoder by_name 


from dlgo.data.index processor import KGSIndex 
from dlgo.data.sampling import Sampler <--- 采样 器 将 用 于 对 文件 中 的 训练 和 
测试 数据 进行 采样 























我 们 还 没 讨论 到 代码 清单 7-4 中 的 最 后 两 个 导入 《〈Sampler 和 
KGSIndex) ， 但 会 在 构建 围棋 数据 处 理 器 时 介绍 它们 。 继 续 编 辑 
processor.py， 编 写 GoDatapProcessor 的 初始 化 构造 函数 。 这 里 需要 提 
供 两 个 参数 ， 一 个 参数 encoder 是 用 字符 串 指定 的 Encoder 对 象 ， 另 一 
个 data_directory 用 来 指定 存储 SGF 数 据 的 目录 ， 如 代码 清单 7-5 所 


作 \。 









































代码 清单 7-5 ”初始 化 围棋 数据 处 理 器 ， 指 定 所 用 的 编码 器 和 本 地 数据 存储 目录 


























class GoDatapProcessor : 
def _ init (self，encoder= 'oneplane'，data_ directory= 'data ' ) : 


self.encoder = get_encoder_by_name(encoder，19) 
self.data dir = data directory 





接 下 来 我 们 实现 数据 处 理 的 主 方法 1oad_go_data， 如 代码 清单 7-6 
所 示 。 调 用 这 个 方法 时 ， 我 们 可 以 指定 要 处 理 的 棋局 数量 和 要 加 载 的 数 
据 类 型 〈 是 训练 数据 还 是 测试 数据 ) 。1load _go_data 会 从 KGS 下 载 在 
线 围 棋 棋 谱 ， 并 按照 指定 的 棋局 数量 进行 采样 ， 接 着 处 理 棋谱 数据 ， 创 
建 特征 与 标签 ， 最 后 将 结果 以 NumPy 数 组 的 形式 保存 到 本 地 。 








代码 清单 7-6 load_go_data 函 数 : 加 载 、 处 理 和 存储 数据 




















def load go data(self, data type='train', <--- 参数 data_type 用 于 指 
定数 据 类 型 ， 可 以 选择 是 训练 数据 还 是 测试 数据 
num_samples=1666) : <--- num_samples 指 定 从 数据 中 加 
载 的 棋局 数量 


index = KGSIndex(data directory=self.data dir) 


index.download files() <--- 从 KGS 下 载 所 有 棋局 数据 ， 并 存储 到 本 地 数 
据 目 录 。 如 果 数 据 已 经 存在 ， 则 不 会 再 次 下 载 



































sampler = Sampler(data dir=self.data dir) 
data = sampler.draw data(data type, num samples) <--- Sampler 


实例 从 数据 中 抽取 指定 数量 的 棋局 数据 ， 并 加 载 为 指定 的 数据 类 型 








zip_names = set() 
indices by zip name = {} 
for filename, index in data: 
zip_names.add(filename) <--- 收集 数据 
存放 到 一 个 列表 中 
if filename not in indices by zip name: 
indices by zip_name[filename] = [] 
indices by zip name[filename].append(index) <--- 按压 缩 文件 
名 对 所 有 SGF 文 件 索 引进 行 分 组 
for zip name in zip_names : 
base_name = zip name.replace('.tar.gz', '"') 
data_file name = base name + data type 
if not os.path.isfile(self.data dir + '/' + data file name): 

















包含 的 所 有 压缩 文件 名 ， 











self.process zip(zip name, data file name, 
indices by zip name[zip_name]) <--- 


然后 单独 处 理 每 个 压缩 文件 


features_and_ labels = self.consolidate games(data type, data) < 
- ”接着 将 每 个 压缩 文件 得 到 的 特征 和 标签 进行 整合 并 返回 
return features and labels 











注意 ， 数 据 下 载 之 后 ， 需 要 用 一 个 Sampler 采样 器 〉 实 例 把 它 拆 
分 开 。 这 个 采样 器 的 主要 工作 是 确保 随机 选择 指定 数量 的 棋局 ， 以 及 更 
重要 的 是 要 确保 训练 数据 与 测试 数据 不 出 现任 何 重 登 。Sampler 在 文件 
级 别 上 拆 分 训练 数据 和 测试 数据 ， 办 法 很 简单 ， 将 2014 年 之 前 进行 的 棋 
局 作为 测试 数据 ， 而 把 更 近 的 棋局 作为 训练 数据 。 这 么 做 可 以 确保 测试 
数据 里 的 任何 可 用 棋局 信息 都 不 会 (部 分 〉 出 现在 训练 数据 中 ， 否 则 可 
能 导致 模型 出 现 过 拟 合 问题 。 











拆 分 训练 数据 和 测试 数据 





将 数据 拆 分 为 训练 数据 和 测试 数据 是 为 了 获得 可 徘 的 性 能 指标 。 我 
们 使 用 训练 数据 生成 一 个 模型 ， 再 用 测试 数据 对 其 进行 评估 ， 以 了 解 模 
型 是 否 适用 于 它 未 见 的 情形 ， 即 模型 从 训练 阶段 学 到 的 内 容 是 否 有 能 
扩展 到 真实 世界 。 正 确 地 收集 和 拆 分 数据 ， 对 于 模型 结果 的 可 靠 性 至 关 
重要 。 





要 拆 分 数据 ， 有 个 最 简单 的 方法 : 加 载 全 部 数据 ， 然 后 将 其 混 洗 ， 
再 随机 拆 分 成 训练 数据 和 测试 数据 。 对 某 些 问题 来 说 这 个 朴素 的 方法 可 
能 是 一 个 好 主意 ， 但 对 于 其 他 情况 则 不 然 。 对 围棋 棋谱 来 说 ， 一 局 棋 之 














中 的 各 个 动作 是 相互 依赖 的 ， 如 果 训 练 模型 时 使 用 的 测试 数据 中 有 的 动 
作 序列 也 在 测试 数据 中 出 现 ， 就 很 容易 给 人 一 种 得 到 了 强大 模型 的 错 
党 。 而 实践 证 明 ， 这 样 训 练 出 来 的 机 器 人 在 实战 中 远 没有 那么 蝇 大 。 所 
以 请 读者 一 定 要 认真 地 分 析 数 据 并 找到 合理 的 数据 拆 分 方案 。 





在 完成 数据 的 下 载 与 采样 后 ，load_go_data 会 依靠 两 个 辅助 函数 
来 处 理 数据 : process_zip 人 负责 读 出 单个 压缩 文 
件 ，consolidate_games 负 责 将 每 个 压缩 文件 的 结果 组 织 成 特征 与 标 
签 集 合 。 接 下 来 让 我 们 观察 一 下 process_zip 函 数 ， 它 执行 以 下 几 个 步 


又。 


— 


(1) 调用 unzip_data 解 压 当前 文件 。 


et 


(2) 初始 化 一 个 Encoder 实 例 来 编码 3GF 棋 谱 。 


Wt 


(3) 初始 化 形状 合理 的 特征 和 标签 NumPy 数 组 。 


— 


(4) 碗 代 衣 历 棋 局 列表 ， 并 逐个 处 理 棋 局 数据 。 





(5) 每 一 局 开始 之 前 先 布 置 全 部 让 子 。 


— 


(6) 然后 读 出 SGF 棋 详 中 的 每 个 动作 。 


(7) 将 每 一 回合 的 下 一 步 动 作 编 码 为 label。 





(8) 将 每 一 回合 的 当前 棋盘 布局 状态 编码 为 feature。 


(9) 把 下 一 步 动 作 执行 到 棋盘 上 并 继续 。 


(10) 在 本 地 文件 系统 中 分 块 存储 特征 与 标签 。 





下面 展示 一 下 process_zip 中 前 9 个 步骤 的 实现 。 注 意 ， 为 简洁 起 
见 ， 我 们 省 略 了 技术 性 实用 工具 函数 unzip_data， 读 者 可 以 在 GitHub 
代码 库 中 找到 。 图 7-3 中 展示 了 如 何 将 SGF 压 缩 文件 处 理 并 转换 成 编码 的 


游戏 状态 。 


En 
迭代 一 个 压缩 文件 来 压缩 文件 
获取 多 个 SGF 文 件 。 





将 每 个 SGF 文 件 解码 ， 获 得 
棋局 和 动作 列表 。 


[Ot Ot OL 
名 O” 备 O 一 备 O 
©  _e@ ee 
00 0 00 
00-1 00 
编码 器 00 1-10 
00 1 .00 
00 0 00 
将 每 个 棋局 编码 为 NumPy 数 组 。 


图 7-3 ”process_zip 函 数 。 它 会 迭代 包含 许多 SGF 文 件 的 压缩 文件 。 每 个 SGF 文 件 包 含 一 系列 落 


子 动作 ， 我 们 月 





这些 动作 来 重建 GameState 对 象 。 然 后 月 


有 Encoder 对 象 将 各 个 游戏 状态 转换 为 





NumPy 数 组 


接 下 来 我 们 实现 process_zip 的 定义 ， 如 代码 清单 7-7 所 示 。 












































代码 清单 7-7 ”处 理 存 储 在 压缩 文件 中 的 围棋 棋谱 ， 并 转换 为 编码 的 特征 与 标签 























def process zip(self, zip file name, data file name, game list): 
tar file = self.unzip data(zip file name) 
zip file = tarfile.open(self.data dir + '/' + tar file) 
name_list = zip file.getnames() 
total examples = self.num total examples(zip file, game list, 











name_ 1ist) <--- 确定 此 压缩 














文件 中 所 有 棋局 的 总 动作 数量 


shape = self.encoder.shape() <--- ”根据 所 用 的 编码 器 推断 特征 与 标签 的 形 
状 

feature shape = np.insert(shape, 0, np.asarray([total examples])) 

features = np.zeros(feature_ shape) 

labels = np.zeros((total examples, )) 




















counter = 0 
for index in game list: 
name = name list[index + 1] 
if not name.endswith('.sgf'): 
raise ValueError(name + ' is not a valid sgf') 
sgf_content = zip file.extractfile(name).read() 
sgf = Sgf game.from string(sgf_content) <--- ”解压 缩 文件 后 ， 将 SG 
F 内 容 读 取 为 字符 串 














game_state, first move done = self.get handicap(sgf) <--- 布置 
所 有 让 子 ， 得 到 开盘 游戏 状态 











for item in sgf.main sequence iter(): <---” 通 历 sGF 文 件 中 的 所 有 动 

















作 
color, move tuple = item.get move() 
point = None 
if color is not None: 
if move tuple is not None: <--- 读 取 沙子 的 坐标 .… 
row, col = move_ tuple 
point = Point(row + 1, col + 1) 
move = Move.play(point) 
else: 
move = Move.pass turn() Ea 或 者 如 果 没 有 落 子 动作 
， 永 选择 跳 过 回合 





if first move done and point is not None: 
features[counter] = self.encoder.encode(game_state) 
<--- 将 当前 的 游戏 状态 编码 为 特征 …. 
labels[counter] = self.encoder.encode point(point) 
<--- “并 将 下 一 步 动作 编码 为 特征 的 标签 
counter += 1 
game_state = game state.apply_move(move) <--- 之 后 把 落 









































子 动作 执行 到 棋盘 上 ， 然 后 继续 下 一 回合 


first move _ done = True 








注意 ，for 循 环 中 的 代码 逻辑 与 代码 清单 7-2 中 描述 的 过 程 非 常 接 
近 ， 因 此 读者 应 该 会 有 似曾相识 的 感 党 。process_zip 调 用 两 个 我 们 接 
下 来 要 实现 的 辅助 方法 。 第 一 个 辅助 方法 是 num_total_examples， 它 
会 提前 计算 每 个 压缩 文件 中 可 用 的 动作 的 总 数 ， 让 我 们 可 以 高 效 地 确定 
特征 与 标签 数组 的 尺寸 ， 如 代码 清单 7-8 所 示 。 








代码 清单 7-8 计算 当前 压缩 文件 中 有 效 动作 的 总 数 














def num total examples(self, zip file, game list, name list): 
total examples = 0 
for index in game list: 
name = name list[index + 1] 
if name.endswith('.sgf'): 
sgf_content = zip file.extractfile(name).read() 
sgf = Sgf game.from string(sgf_content) 
game_state, first move done = self.get handicap(sgf) 


num moves = 0 
for item in sgf.main sequence iter(): 
color, move = item.get move() 
if color is not None: 
if first move_ done: 
num moves += 1 
first move done = True 
total examples = total examples + num moves 
else: 
raise ValueError(name + ' is not a valid sgf') 
return total examples 








第 二 个 辅助 方法 是 get_handicap， 用 来 获取 当前 棋局 规定 的 让 子 
数目 ， 并 把 这 些 让 子 布置 到 空 日 棋盘 上 ， 如 代码 清单 7-9 所 示 。 




















代码 清单 7-9 ”获取 让 子 数目 ， 并 将 它们 布置 到 空白 棋盘 上 

















@staticmethod 
def get handicap(sgf): 
go_board = Board(19, 19) 
first move done = False 
move = None 
game_state = GameState.new game(19) 
if sgf.get handicap() is not None and sgf.get handicap() != ©: 
for setup in sgf.get root().get setup_ stones(): 
for move in setup: 
row, col = move 
go_board.place_stone(Player.black， 
Point(row + 1, col + 1)) 


first move done = True 
game_state = GameState(go board, Player.white, None, move) 
return game_state, first move done 





在 process_zip 实 现 的 结尾 ， 需 要 将 特征 与 标签 分 块 存储 到 单独 的 
文件 中 ， 如 代码 清单 7-10 所 示 。 











代码 清单 7-10 ”将 特征 与 标签 分 块 存储 到 本 地 

















feature file base = self.data dir + '/' + data file name + 
"_features %d' 
label file base = self.data dir + '/' + data file name + '_labels % 


chunk = 6 # Due to files with large content, split up after chunksi 
chunksize = 1624 


while features.shape[6] >= chunksize: <--- 分 块 处 理 特 征 与 标签 时 ， 
我 们 以 块 大 小 为 1624 为 一 个 批 次 





feature file = feature file _ base % chunk 
label file = label file _ base % chunk 
chunk += 1 


current features, features = features[ :chunksize]， 
ww features[chunksize:] 
current labels, labels = labels[:chunksize|], labels[chunksize:] 
<--- 把 当前 的 分 块 从 features 和 1abels 数 组 中 分 割 出 来 
np.save(feature file, current features) 
np.save(label file, current labels) 并 存储 到 一 个 单独 的 





























之 所 以 要 分 块 单独 存储 ， 是 因为 NumPy 数 组 会 迅速 变 大 ， 而 将 数据 


存储 在 较 小 的 文件 中 就 可 以 保留 更 多 的 灵活 性 。 例 如 ， 我 们 可 以 选择 把 
所 有 分 块 数据 合并 起 来 使 用 ， 也 可 以 根据 需要 将 每 个 文件 单独 加 载 到 内 
存 中 。 这 两 种 方式 以 后 都 会 用 到 。 后 者 〈 即 动态 加 载 批 量 数 据 ) 稍微 复 
杂 一 些 ， 但 前 者 还 是 很 直观 的 。 另 外 ， 在 我 们 的 实现 中 while 循 环 中 分 
块 的 最 后 一 部 分 数据 可 能 会 丢 挥 ， 但 影响 并 不 大 ， 因 为 我 们 已 经 拥有 足 
够 多 的 数据 了 。 





继续 编辑 processor.py 文 件 ， 补 充 对 GoDataProcessor 的 定义 。 要 
实现 数据 整合 ， 只 需 将 所 有 数组 合并 (concatenate) 成 一 个 数组 即 可 ， 
如 代码 清单 7-11 所 示 。 











代码 清单 7-11 将 独立 的 特征 与 标签 NumPy 数 组 合并 到 一 个 集合 中 











def consolidate games(self, data type, samples): 
files needed = set(file name for file name, index in samples) 
file names = [|] 
for zip file name in files needed: 
file name = zip file name.replace('.tar.gz', '') + data type 
file names.append(file name) 


feature list = [] 
label list = [|] 
for file name in file names: 
file prefix = file name.replace('.tar.gz', '') 
base = self.data dir + '/' + file prefix + '_features *.npy' 
for feature file in glob.glob(base): 
label file = feature file.replace('features', 'labels') 


x = np.load(feature file) 

y = np.load(label file) 

x = x.astype('float32') 

y = to categorical(y.astype(int), 19 * 19) 


feature list.append(x) 
label list.append(y) 
features = np.concatenate(feature list, axis=0) 
labels = np.concatenate(label list, axis=0) 
np.save('{}/features {}.npy' .format(self.data dir, data type), 
= features) 


np.save('{}/labels {}.npy'.format(self.data dir, data type), labels 


return features, labels 





要 测试 上 面 的 实现 ， 可 以 加 载 100 个 棋谱 的 特征 与 标签 ， 如 代码 清 
单 7-12 所 示 。 








代码 清单 7-12 ”加载 100 个 棋谱 的 训练 数据 


from dlgo.data.processor import GoDataProcessor 


processor = GoDataProcessor() 
features, labels = processor.1oad go data('train', 1060) 





这 些 特征 与 标签 使 用 第 6 章 中 的 oneplane 编 码 器 进行 编码 ， 因 此 它 
们 的 结构 与 第 6 章 完 全 相同 。 因 此 这 套数 据 可 以 用 来 训练 第 6 章 中 创建 的 
任何 神经 网 络 。 但 如 果 现 在 就 这 么 做 的 话 ， 请 不 要 期 待 能 得 到 太 好 的 评 
估 结 果 。 虽 然 这 套 真实 棋谱 数据 比 第 6 章 中 生成 的 棋局 要 好 得 多 ， 但 我 
们 现在 用 的 是 19x19 棋 盘 ， 这 可 比 在 9x9 棋 盘 要 复杂 得 多 。 








将 数量 巨大 的 小 文件 加 载 到 内 存 中 进行 合并 ， 可 能 会 导致 内 存 不 足 
的 异 和 营 。 在 7.2.3 节 中 ， 我 们 用 数据 生成 器 〈data generator) 来 解决 这 
个 问题 。 在 模型 训练 中 ， 它 每 次 只 提供 下 一 个 小 批量 的 数据 。 


7.2.3 构建 可 以 高 效 地 加 载 数据 的 围棋 数据 生成 
全 


从 u-go.net 网 站 下 载 的 KGS 索 引 中 包含 了 超过 170 000 个 棋局 ， 相 当 
于 数 百 万 个 可 以 用 于 预测 模型 训练 的 围棋 动作 。 在 加 载 越 来 越 多 的 棋谱 





时 ， 将 全 部 数据 点 加 载 到 一 对 NumPy 数 组 中 将 会 变 得 越 来 越 困 难 。 这 种 
简单 地 将 棋局 合并 在 一 起 的 方式 注定 会 在 茶 个 时 刻 导 致 程 序 衣 误 。 





因此 ， 建 议 在 GoDatapProcessor 中 用 一 个 更 聪明 的 实现 来 蔡 
换 consolidate_games。 注 意 ， 神 经 网 络 训练 每 次 只 需要 一 个 小 批量 
的 特征 与 标签 。 我 们 没 必要 把 全 部 数据 都 始终 保存 在 内 存 中 。 因 此 接 下 
来 我 们 要 构建 一 个 围棋 数据 的 生成 器 。 如 果 读 者 了 解 Python 中 生成 器 的 
概念 ， 就 会 立即 明白 我 们 要 做 什么 了 。 但 是 ， 如 果 读 者 并 不 了 解 生成 
器 ， 可 以 把 它 看 作 一 个 函数 ， 在 需要 下 一 批 数 据 的 时 候 ， 它 能 高 效 地 提 
供 数 据 。 











首先 初始 化 一 个 DataGenerator 类 。 将 代码 清单 7-13 中 的 代码 放 到 
data 模 块 的 generator.py 文 件 中 。 生 成 器 的 初始 化 构造 函数 需要 指定 本 地 
数据 目录 data_directory 以 及 GoDataProcessor 中 的 Sampler 提 供 的 
数据 样本 。 








代码 清单 7-13 ”围棋 数据 生成 器 的 签名 








import glob 
import numpy as np 
from keras.utils import to categorical 
class DataGenerator: 
def init (self, data directory, samples): 
self.data directory = data directory 
self.samples = samples 
self.files = set(file name for file name, index in samples) < -- 
- 生成 器 可 以 访问 之 前 采样 的 文件 集合 


self.num samples = None 


def get num samples(self, batch size=128, num classes=19 * 19): <e-- 
-在 菜 些 应 用 中 ， 可 能 需要 知道 自己 拥有 多 少 示例 样本 
if self.num samples is not None : 
return self.num samples 























else: 
self.num samples = 6 
for X, y in self. generate(batch size=batch size, 
num_classes=num classes): 
self.num samples += X.shape[9] 
return self.num samples 





接 下 来 ， 我 们 将 实现 一 个 私有 的 _generate 方 法 ， 它 负责 创建 并 返 
回 批量 数据 ， 如 代码 清单 7-14 所 示 。 这 个 方法 的 整体 逻辑 
与 consolidate_games 类 似 ， 但 有 一 个 重要 区 别 : 后 者 需要 为 特征 与 
标签 创建 一 个 巨大 的 NumPy 数 组 ， 而 前 者 则 只 需要 返回 〈 即 yield) 下 
一 个 小 批量 的 数据 即 可 。 























代码 清单 7-14 生成 并 产生 下 一 批 围 棋 数据 的 私有 方法 











def generate(self, batch size, num classes): 
for zip file name in self.files: 
file name = zip file name.replace('.tar.gz', '') + "train' 
base = self.data directory + '/' + file name + '_features *.np 


for feature file in glob.glob(base): 
label file = feature file.replace('features', 'labels') 
x = np.load(feature file) 


y = np.load(label file) 

x = x.astype('float32') 

y = to categorical(y.astype(int), num classes) 

while x.shape[8] >= batch size: 
x_batch, x = x[:batch size|], x[batch size:] 
y_batch, y = y[:batch size], y[batch size:] 
yield x_batch, y_batch <--- ” 随 着 训练 的 进展 返回 























生 ) 一 批 批 数据 
最 后 ， 这 个 生成 器 还 缺少 一 个 返回 生成 器 的 方法 。 获 得 一 个 生成 器 


之 后 ， 也 可 以 对 它 显 式 地 调用 next() 方 法 来 为 用 例 批 量 生成 数据 。 我 
们 可 以 像 代码 清单 7-15 这 样 做 。 


























代码 清单 7-15 ”调用 generate 方 法 获取 模型 训练 的 生成 器 





def generate(self, batch size=128, num classes=19 * 19) : 
while True: 


for item in self. generate(batch size, num classes): 
yield item 





下 面 我们 先 解释 如 何 将 这 个 概念 纳入 GoDataProcessor 中 ， 然 后 
再 使 用 数据 生成 器 训练 神经 网 络 。 


7.2.4 并 行 围棋 数据 处 理 和 生成 大 





读者 可 能 已 经 注意 到 ， 在 代码 清单 7-3 中 ， 仅 仅 加 载 100 个 棋谱 ， 也 

会 感觉 比 预 期 的 要 慢 一 些 。 虽 然 肯 定 有 等 待 数据 下 载 的 因素 ， 但 处 理 数 
据 的 速度 其 实 也 比较 慢 。 在 我 们 的 实现 中 ， 各 个 压缩 文件 是 顺序 处 理 
的 ， 即 在 一 个 文件 处 理 完 成 后 才 继 续 处 理 下 一 个 。 但 是 如 末 仔 细 观 察 就 
会 发 现 ， 我 们 所 展示 的 围棋 数据 处 理 过 程 正 符 合 人 们 常 说 的 高 度 并 行 
(embarrassingly parallel) 模式 。 因 此 只 需要 做 出 一 点 点 改变 就 可 以 把 
工作 负载 分 配 到 计算 机 的 全 部 CPU 上 ， 实 现 压缩 文件 的 并 行 处 理 。 例 
如 ， 我 们 可 以 使 用 Python 的 多 处 理 库 (multiprocessing library) 。 





本 书 GitHub 代 码 库 的 data/parallel_processor.py 文 件 提供 了 并 行 版 本 
的 GoDataProcessor 实 现 。 建 议 对 它 的 工作 原理 感 兴趣 的 读者 仔细 阅 
读 代码 的 实现 细节 。 虽 然 并 行 化 的 加 速 能 够 市 来 直接 的 好 处 ， 但 它 的 实 
现 细节 会 增加 代码 的 阅读 难度 ， 因 此 我 们 在 这 里 不 对 它 进行 详细 介绍 


使 用 并 行 版 本 的 G6oDataProcessor 还 有 另 一 个 好 处 ， 即 可 以 选择 
用 DataGenerator 来 返回 生成 器 ， 而 不 用 直接 返回 数据 ， 如 代码 清单 7- 


16 所 示 。 











代码 清单 7-16 load_go_data 的 并 行 版 本 ， 可 以 选择 返回 一 个 生成 器 

















def load go _data(self，data_type= 'train'，num_samples=1666， 
use_generator=False): 
index = KGSIndex(data directory=self.data dir) 
index.download files() 


sampler = Sampler(data dir=self.data dir) 
data = sampler.draw data(data type, num samples) 


self.map_to workers(data type, data) <--- 将 工作 负载 映射 到 多 个 CP 


if use_generator : 
generator = DataGenerator(self.data dir, data) 
return generator <--- 要 么 返回 一 个 围棋 数据 生成 器 
else: 
features and labels = self.consolidate games(data type, data) 
return features and labels 要 么 像 以 前 一 样 返回 合并 的 数 所 

















Y 


这 两 个 版 本 的 GoDatapProcessor 接 口 基本 一 致 ， 但 并 行 版 本 中 多 
了 一 个 use_generator 标 志 参 数 。 利 用 dlgo.data.parallel _processor 的 
GoDataProcessor， 就 可 以 改 用 生成 器 来 提供 围棋 数据 了 ， 如 代码 清 
单 7-17 所 示 。 





代码 清单 7-17 加载 100 局 训练 数据 





from dlgo.data.parallel processor import GoDataProcessor 


processor = GoDataProcessor() 


generator processor.1oad_ go data('train', 160, use generator=True) 
print(generator.get num samples()) 

generator = generator.generate(batch size=10) 

X, y = generator.next() 








最 初 的 数据 加 载 仍 然 十 要 时 间 ， 但 根据 机 器 的 处 理 器 数量 ， 它 应 当 


获得 相应 的 加 速 。 创 建 好 生成 器 之 后 ， 可 以 调用 next() 立 即 返回 一 个 
批 次 的 数据 。 这 么 做 ， 我 们 惑 再 也 不 会 遇 到 内 存 溢 出 的 嘛 烦 了 。 


7.3 ”基于 真实 模 局 数据 训练 深度 学 习 模 型 


现在 我 们 已 经 可 以 访问 高 段位 的 围棋 数据 ， 并 把 它 处 理 成 可 以 用 于 
动作 预测 模型 的 形式 ， 让 我 们 把 流程 的 各 个 节点 连接 起 来 ， 并 用 这 套数 
据 来 构建 深度 神经 网 络 。 在 本 书 GitHub 代 码 库 中 的 dlgo 模 块 下 可 以 找到 
一 个 名 为 networks 的 子 模块 ， 它 提供 了 几 个 神经 网 络 示例 架构 ， 可 以 作 
为 构建 强大 的 动作 预测 模型 的 基础 。 例 如 ，networks 模 块 中 可 以 找到 3 个 
不 同 复杂 度 的 卷 积 神经 网 络 ， 分 别 为 small.py、medium.py 和 1large.py。 这 
几 个 文件 都 包含 一 个 layers 函 数 ， 这 个 函数 用 于 返回 一 系列 可 以 添加 
到 顺序 Keras 模 型 的 层 。 





我 们 将 构建 一 个 卷 积 神经 网 络 ， 它 由 4 个 卷 积 层 和 一 个 稠密 层 组 
成 ， 均 采用 ReLU 激 活 函 数 。 此 外 还 需要 在 每 个 卷 积 层 之 前 添加 一 个 新 
的 实用 工具 层 一 一 ZeroPadding2D 层 〈( 填 零 层 ) 。 填 零 是 一 种 将 输入 特 
征用 0 填充 扩展 的 操作 。 假 设 我 们 使 用 第 6 章 中 的 单 平 面 编 码 器 将 棋盘 纺 
码 为 19x19 和 矩阵 ， 此 时 如 果 指 定 填充 尺寸 为 2， 则 会 在 每 一 行 最 左 侧 和 最 
右 侧 各 添加 一 列 0， 并 在 矩阵 顶部 和 底部 各 添加 一 行 0 值 向 量 ， 从 而 生成 
一 个 放大 的 23x23 和 矩阵 。 这 里 用 填 零 层 人 为 地 增加 卷 积 层 的 输入 尺寸 ， 
可 以 避免 卷 积 操作 过 度 缩小 图 像 。 














在 展示 具体 代码 之 前 ， 我 们 还 得 再 讨论 一 个 小 技术 问题 。 回 想 一 
下 ， 卷 积 层 的 输入 和 和 输出 都 是 四 维 的 : 我 们 以 小 批量 的 形式 提供 了 一 系 





列 过 滤器 ， 每 个 过 滤器 都 是 二 维 的 《〈 即 它们 具有 宽度 和 高 度 ) 。 这 4 个 
维度 〈 小 批量 尺寸 、 过 滤器 数量 、 每 个 过 滤器 的 宽度 以 及 高 度 ) 的 表示 
顺 夺 有 不 同 的 惯例 。 实 践 中 最 第 用 的 顺序 有 两 种 。 注 意 ， 过 小 器 通常 也 
称 为 通道 〈《C) ， 小 批量 尺寸 通 第 也 称 为 样本 数量 CN) ， 此 外 ， 我 们 还 
可 以 使 用 简称 来 表示 宽度 (W〉 和 蜗 度 (H)〉。 有 了 这 几 个 符号 ， 这 两 种 
常见 的 顺序 就 可 以 分 别 表示 为 NWHC 和 NCWH。 在 Keras 中 ， 我 们 把 这 
种 维度 顺序 称 为 data_format， 其 中 NWHC 称 为 channels_last， 而 
NCWH 称 为 channels_first， 其 原因 显而易见 。 而 我 们 在 构建 第 一 个 
围棋 棋盘 编码 器 〈 即 单 平 面 编 码 器 ) 时 ， 使 用 的 是 channels first 惯 
例 〈 编 码 后 的 棋盘 形状 为 1, 19, 19， 即 表示 单 平 面 在 前 面 ) 。 这 意味 着 
我 们 必须 为 所 有 卷 积 层 提供 data_format = channels_ first 人 参数 。 
我 们 来 看 看 smallL.py 中 的 模型 是 什么 样 的 ， 如 代码 清单 7-18 所 示 。 


























代码 清单 7-18 ”为 一 个 用 于 围棋 动作 预测 的 小 型 卷 积 网 络 指定 各 个 层 








from keras.layers.core import Dense, Activation, Flatten 
from keras.layers.convolutional import Conv2D, ZeroPadding2D 


def layers(input_shape) : 


return [ 
ZeropPadding2D(padding=3, input_shape=input_shape, 
data_format='channels first'), <--- ”使 用 填 零 层 来 
放大 输入 图 像 


Conv2D(48, (7, 7), data format='channels first'), 
Activation('relu'), 


ZeropPadding2D(padding=2, data format="'channels_ first'), < --- C 
hannels_first 意 味 着 特征 输入 平面 的 维度 放 在 前 面 

Conv2D(32, (5, 5), data format='channels first'), 

Activation('relu'), 





ZeropPadding2D(padding=2, data format="'channels first'), 
Conv2D(32, (5, 5), data format='channels first'), 
Activation('relu'), 


ZeroPadding2D(padding=2，data_format= 'channels_first' )， 
Conv2D(32, (5, 5), data format='channels first'), 
Activation('relu'), 


Flatten(), 
Dense(512), 
Activation('relu'), 





layers 函 数 返 回 一 个 Keras 层 的 列表 ， 可 以 逐个 添加 到 Sequential 
模型 里 。 使 用 这 些 层 ， 我 们 就 可 以 构建 一 个 应 用 来 运行 图 7-1 中 描述 的 
前 5 个 步骤 了 : 对 围棋 数据 进行 下 载 、 提 取 、 编 码 ， 并 使 用 它 来 训练 神 
经 网 络 。 在 训练 部 分 将 使 用 前 面 构 建 的 数据 生成 融 。 但 首先 让 我 们 从 这 
六 基 壮 成 长 的 围棋 机 器 学 习 库 里 导入 一 些 基 本 组 件 ， 如 代码 清单 7-19 所 
示 。 要 构建 这 个 应 用 ， 需 要 一 个 围棋 数据 处 理 器 、 一 个 编码 器 以 及 一 个 
神经 网 络 架 构 。 























代码 清单 7-19 构建 围棋 数据 神经 网 络 所 需 的 关键 导入 














from dlgo.data.parallel processor import GoDataProcessor 
from dlgo.encoders.oneplane import OnePlaneEncoder 


from dlgo.networks import small 


from keras.models import Sequential 

from keras.layers.core import Dense 

from keras.callbacks import ModelCheckpoint <--- 有 了 模型 检查 点 ， 就 可 以 
在 时 间 消 耗 较 大 的 实验 里 保存 实验 进度 了 


























在 代码 清单 7-19 里 ， 最 后 一 句 从 Keras 导 入 了 一 个 名 
为 ModelCheckpoint 〈 模 型 检查 点 ) 的 方便 工具 。 由 于 现在 我 们 有 了 





和 花 
败 ， 那 么 最 好 能 够 做 到 备份 完善 。 而 这 正 是 模型 检查 点 所 提供 的 功能 : 


在 每 一 个 训练 欠 代 周期 结束 之 后 ， 它 都 会 存储 模型 的 快照 。 这 样 的 话 ， 
即使 实验 中 途 失 败 ， 我 们 也 能 够 从 最 后 一 个 检查 点 恢复 训练 流程 。 





接 下 来 定义 训练 数据 和 测试 数据 。 首 先 初始 化 一 
个 OnePlaneEncoder， 并 用 它 创 建 一 个 GoDataProcessor， 如 代码 清 
单 7-20 所 示 。 使 用 这 个 数据 处 理 器 ， 就 可 以 为 训练 数据 和 测试 数据 各 实 
例 化 一 个 数据 生成 器 ， 并 在 Keras 模 型 中 使 用 。 











代码 清单 7-20 ”创建 训练 数据 和 测试 数据 生成 器 











go_board_rows，go_board cols = 19, 19 
num_classes = go_board_rows * go board cols 
num_ games = 160 








encoder = OnepPlaneEncoder((go board rows, go_board_ cols)) 创建 


一 个 与 棋盘 太 寸 相同 的 编码 器 




















processor = GoDataProcessor(encoder=encoder.name()) <--- 然后 用 它 初始 化 


一 个 围棋 数据 处 理 器 








generator = processor.1oad go data('train', num games, Use generator=True) 
<--- 用 这 个 处 理 器 创建 两 个 数据 生成 器 ， 分 别 用 于 训练 和 测试 

test generator = processor.1oad go data('test', num games, use generator=T 

rue) 





























下 一 步 ， 用 dlgo.networks.small 中 的 layers 函 数 定 义 一 个 Keras 神 经 
网 络 。 把 这 个 小 型 网 络 的 各 个 层 逐 一 添加 到 新 的 顺序 网 络 中 ， 再 为 最 后 
的 Dense 层 添加 一 个 softmax 激 活 层 ， 这 样 承 完成 了 模型 的 定义 ， 如 代码 
清单 7-21 所 示 。 然 后 使 用 分 类 交叉 烂 损失 函数 来 编译 模型 ， 并 使 用 SGD 
进行 训练 。 








代码 清单 7-21 使 用 小 型 层 架 构 定 义 一 个 Keras 模 型 


input_shape = (encoder.num planes, go_board rows, g0_ board cols) 








network_layers = smal1.1ayers(input_shape) 
model = Sequential() 
for layer in network_ layers: 
model.add(layer) 
model.add(Dense(num classes, activation='softmax')) 
model.compile(loss='categorical crossentropy', optimizer='sgd', 
metrics=['accuracy' ]) 





在 训练 Keras 模 型 时 ， 使 用 数据 生成 器 的 情形 与 直接 使 用 数据 集 略 
有 不 同 。 我 们 需要 把 模型 调用 fit 方 法 改 为 调用 fit_generator， 把 调 
用 evaluate 改 为 调用 evaluate_generator。 并 且 这 两 个 新 方法 的 签 
名 也 和 之 前 两 个 稍 有 不 同 。 调 用 fit_generator 时 ， 需 要 指定 参 
数 generator 〈 生 成 器 ) 、epochs “训练 迭代 周期 数 ) ， 以 及 
steps_per_epoch《 每 个 迭代 周期 中 的 训练 步 数 ) 。 这 3 个 参数 是 训练 
模型 的 基本 配置 。 我 们 还 需要 在 测试 数据 上 验证 训练 过 程 的 效果 ， 因 此 
需要 提供 参数 validation_data (验证 数据 生成 器 ) 和 
validation_steps《〈 每 个 迭代 周期 中 的 验证 步 数 ) 。 最 后 ， 还 需要 问 
模型 添加 一 个 callback 参 数 〈 回 调 函 数 ) 。 回 调 函 数 让 我 们 可 以 在 训 
练 过 程 中 跟踪 和 返回 额外 信息 。 这 里 我 们 可 以 利用 回调 来 触发 
ModelCheckpoint 实 用 工具 ， 以 便 在 每 个 迭代 周期 完成 后 存储 Keras 模 
型 。 代 码 清单 7-22 给 出 了 一 个 示例 ， 这 里 训练 的 模型 批量 尺寸 为 128， 
训练 欠 代 周期 数 为 5 代 。 


























代码 清单 7-22 ”用 生成 器 拟 合 Keras 模 型 并 进行 评 但 





ny 











epochs = 5 

batch_size = 128 

model.fit generator( 
generator=generator.generate(batch size, num classes), 
epochs=epochs， 人 以 及 每 一 个 训练 迭代 周期 执行 的 训练 步 数 
steps_per_epoch=generator .get_num_samples() / batch_size， <--- 初始 


化 训练 数据 生成 器 ， 指 定 批 尺寸 ..… 








validation data=test_generator.generate( <--- 还 需要 再 构造 一 个 生成 器 用 


batch size, num classes), 
validation _steps= test generator.get num samples() / batch size, €--- 
a 它 也 需要 指定 执行 的 步 数 
callbacks=[ 
ModelCheckpoint('../checkpoints/small model epoch {epoch}.h5s') €--- 
在 每 一 个 训练 迭代 周期 结束 之 后 ， 保 存 模型 的 检查 点 
]) 
model.evaluate generator( 
generator=test generator.generate(batch size, num classes), 
steps=test generator.get num samples() / batch size) <--- 还 需 为 评估 
过 程 指定 一 个 生成 器 ， 以 及 执行 的 步 闫 

















注意 ， 如 果 读 者 打算 自己 运行 这 段 代 码 ， 需 要 关注 完成 实验 所 需 的 
时 间 。 如 果 在 CPU 上 运行 它 ， 训 练 一 个 达 代 周期 可 能 需要 几 个 小 时 。 实 
际 上 ， 机 器 学 习 中 使 用 的 数学 运算 与 计算 机 图 形 学 有 很 多 共同 之 处 。 因 
此 ， 在 某 些 情况 下 ， 神 经 网 络 的 计算 可 以 移 到 GPU 上 ， 并 获得 显著 的 加 
速 。 使 用 GPU 进 行 计算 将 大 大 加 快 计 算 速 度 ， 在 卷 积 神经 网 络 里 ， 往 往 
能 加 速 一 到 两 个 数量 级 。 如 有 果 你 的 计算 机 配备 了 合适 的 驱动 程序 ， 那 么 
TensorFlow 可 以 将 计算 移 到 某 些 特定 的 GPU 上 。 








NY = 
注 轧 


如 果 想 用 GPU 执行 机 器 学 习 运 算 ，NVIDIA 世 片 与 Windows 或 Linux 
操作 系统 的 组 合 是 支持 得 最 好 的 。 用 其 他 组 合 也 不 是 不 可 行 ， 但 要 花 很 
多 时 间 去 调整 驱动 器 











如 果 你 不 想 上 自己 答 试 执行 ， 或 者 现在 暂时 不 想 这 样 做 ， 那 么 我 们 也 


己 经 为 你 预先 计算 好 了 这 个 模型 。 请 参看 本 书 的 GitHub 代 码 库 ， 

在 checkpoints 目 录 中 存放 了 5 个 检查 点 模型 ， 它 们 分 别 是 每 个 训练 迭 
代 周 期 后 完成 的 。 下 面 是 训练 执行 的 一 段 输出 (这 个 训练 是 在 旧 的 便携 
式 计算 机 的 CPU 上 进行 的 ， 可 能 会 让 人 有 立即 购买 更 快 GPU 的 冲动 ) : 


Epoch 1/5 

12288/12288 [ - 14653s 1s/step - loss: 
14 

> - acc: 0.2834 - :2 - : 6.6669 

Epoch 2/5 

12288/12288 [ - 15868s 1s/step - 

28 

ww - acc: 0.9174 - 2 - : 0.8294 


Epoch 3/5 
12288/12288 [ - 14416s 1s/step - 


46 

ww - acc: 0.9791 - 六 : 0.8413 

Epoch 4/5 

12288/12288 [ - 14626s 1s/step - 
13 

ww - acc: 0.9832 - 人 四 : 60.8415 

Epoch 5/5 

12288/12288 [ - 18688s 2s/step - 
47 

ww - acc: 0.9816 - val loss: 2. - Val_acc: 6.8461 





这 里 可 以 看 到 ， 在 完成 3 个 迭代 周期 的 训练 之 后 ， 训 练 数据 上 的 准 
确 率 达 到 98%， 测 试 数据 上 的 准确 率 达 到 84%。 这 与 我 们 在 第 6 章 中 计算 
的 模型 相 比 有 了 非常 大 的 改进 ! 看 来 在 实际 数据 上 训练 一 个 更 大 的 网 络 
似乎 有 所 收获 : 网 络 学 会 了 几乎 完美 地 预测 来 自 100 局 棋局 的 动作 ， 而 
且 推 广 得 相当 好 。84% 的 验证 准确 率 足 以 令 人 满意 。 不 过 话说 回来 ， 
100 局 棋局 仍然 是 一 个 很 小 的 数据 集 ， 改 用 更 大 的 数据 集 是 不 是 能 够 做 
得 更 好 ， 我 们 暂时 还 无 从 得 知 。 但 我 们 的 目标 终究 是 构建 一 个 能 够 与 高 
段 棋 手 竞 争 的 强大 的 机 器 人 ， 而 不 只 是 在 玩具 数据 集 上 所 向 披 靡 。 























下 一 步 ， 要 构造 一 个 真正 强大 的 机 器 人 ， 我 们 还 需要 采用 更 好 的 转 
棋 数 据 编码 器 。 第 6 章 的 单 平 面 编码 需 是 一 个 很 好 的 初步 党 试 ， 但 它 并 
不 能 完全 捕获 到 我 们 所 面临 的 复杂 性 。 在 7.4 贡 中， 我 们 将 了 解 两 个 更 
复杂 的 编码 器 ， 以 提高 训练 效果 。 





7.4 ”构建 更 马 真 的 围棋 数据 编码 缆 





第 2 章 和 第 3 章 讲 到 了 围棋 中 的 动 争 规则 。 回 顾 一 下 ， 这 个 规则 的 存 
在 是 为 了 防止 棋局 中 出 现 无 限 循环 ， 即 禁止 落 子 动作 导致 棋局 回复 到 之 
前 出 现 过 的 局 面 。 但 如 果 给 出 一 个 随机 围棋 棋局 让 我 们 来 判断 是 含有 动 
争 ， 那 就 只 能 频 猜 了 。 在 没有 见 过 以 往 落 子 序列 的 情况 下 ， 劫 争 存 在 与 
侍 是 无 法 得 知 的 。 特 别 地 ， 我 们 之 前 设计 的 单 平面 编码 颖 ， 将 黑子 编码 
为 -1， 白 子 编码 为 1， 空 点 编码 为 0， 这 么 做 是 完全 无 法 了 解 动 争 情 况 
的 。 昌 然 动 争 只 是 一 个 例证 ， 但 它 也 能 说 明 我 们 在 第 6 章 中 构建 的 
OnePlaneEncoder 有 些 过 于 简单 了 ， 无 法 掌握 构建 强大 的 围棋 机 器 人 
所 需 的 全 部 信息 。 








本 节 将 提供 两 个 更 精细 的 编码 器 。 研 究 表明 它们 有 更 好 的 动作 预测 
能 力 。 我 们 称 第 一 个 编码 器 为 SevenPlaneEncoder， 它 由 以 下 7 个 特征 
平面 组 成 。 每 个 平面 都 是 一 个 19x19 和 矩阵 ， 各 自 描述 一 组 不 同 的 特征 : 





第 1 个 平面 ， 对 每 一 箱 仅 剩 1 口气 的 白 子 编码 为 1， 其 他 白 子 编码 为 
0; 

类 似 地 ， 第 2 个 和 第 3 个 平面 ， 分 别 对 有 2 口 或 至 少 3 口气 的 白 子 ， 编 
码 为 1; 





。 第 4 个 到 第 6 个 平面 和 前 面相 同 ， 但 针对 的 是 黑子 ， 也 就 是 说 ， 它 们 
分 别 为 剩 下 1 口 、2 口 或 至 少 3 口气 的 黑子 编码 为 1; 
。 最 后 一 个 特征 平面 把 由 于 动 争 而 不 能 落 子 的 点 标记 为 1。 





这 一 组 特征 平面 除了 对 劫 争 概 念 进行 显 式 地 编码 ， 还 对 棋子 剩余 的 
气 数 进行 了 建 模 和 编码 ， 并 区 分 黑子 与 白 子 。 只 剩 一 口气 的 棋子 由 于 下 
一 回合 就 可 能 被 吃 掉 ， 因 此 具有 额外 的 战术 意义 《围棋 界 通常 将 只 剩 一 
口气 的 棋子 称 为 打 吃 ) 。 由 于 新 的 模型 可 以 直接 “看 到 ”这 个 属性 ， 因 此 
就 能 够 更 容易 地 了 解 它 对 棋局 的 影响 。 为 支 争 与 气 数 单独 创建 特征 平 
面 ， 实 际 上 相当 于 给 模型 增加 了 提示 ， 强 调 了 这 些 概念 的 重要 性 ， 而 无 
须 解释 它们 有 多 重要 或 为 何 重要 。 














接 下 来 我 们 看 看 如 何 扩 展 encoders 模 块 的 基本 Encoder 类 来 实现 这 
一 点 。 将 代码 清单 7-23 中 的 代码 保存 在 sevenplane.py 文 件 中 。 














代码 清单 7-23 ”初始 化 一 个 简单 的 七 平面 编码 器 




















import numpy as np 


from dlgo.encoders.base import Encoder 
from dlgo.goboard import Move, Point 


class SevenplaneEncoder(Encoder): 


def _init (self, board size): 
self.board width, self.board height = board size 
self.num planes = 7 


def name(self) : 
return "sevenplane， 





这 里 有 趣 的 地 方 在 于 棋局 的 编码 ， 其 编码 方式 如 代码 清单 7-24 所 











代码 清单 7-24 使 用 SevenPlaneEncoder 编 码 游戏 状态 


























def encode(self, game state): 
board tensor = np.zeros(self.shape()) 
base_ plane = {game_state.next player: 6， 
game_state.next player.other: 3} 


for row in range(self.board height): 
for col in range(self.board width): 
p = Point(row=row + 1, col=col + 1) 
go_string = game_state.board.get go_ string(p) 
if go_string is None: 


if 
game_state.does move violate ko(game state.next player, 


Move.play(p)): 
board tensor[6][row][col] = 1 <--- ”将 动 争 规则 所 





禁止 的 动作 进行 编码 
else: 
liberty plane = min(3, goO_string.num liberties) - 1 
liberty plane += base plane[go_string.color] 
board tensor[liberty plane|[row][col] = 1 <e--- 
、2 口 或 更 多 口气 的 黑子 和 白 子 进行 编码 


return board tensor 



























































我 们 还 需要 实现 几 个 方便 的 方法 才能 满足 Encoder 的 接口 要 求 ， 如 
代码 清单 7-25 所 示 。 

















代码 清单 7-25 ”实现 七 平面 编码 器 所 有 其 他 的 Encoder 方 法 

















def encode point(self, point): 
return self.board width * (point.row - 1) + (point.col - 1) 


def decode point index(self, index): 
row = index // self.board width 
col = index % self.board width 
return Point(row=row + 1, col=col + 1) 


def num points(self): 
return self.board width * self.board height 


def shape(self) : 
return self.num planes, self.board height, self.board width 


def create(board size): 
return SevenplaneEncoder(board size) 


我 们 还 要 男 外 讨论 一 个 编码 器 ， 它 的 代码 放 在 GitHub 上 。 类 似 于 


SevenPlaneEncoder， 这 是 一 个 具有 11 个 特征 平面 的 编码 器 。 读 者 可 
以 在 本 书 GitHub 上 的 encoders 模 块 中 的 simple.py 中 找到 它 ， 名 
为 SimpleEncoder， 它 具有 如 下 11 个 特征 平面 : 


前 4 个 特征 平面 描述 有 1、2、3 或 4 口气 的 黑子 ; 

接 下 来 4 个 特征 平面 描述 有 1、2、3 或 4 口气 的 白 子 ; 

如 果 是 黑 方 的 回合 ， 则 第 9 个 平面 设置 为 1， 如 果 是 白 方 的 回合 ， 则 
第 10 个 平面 设置 为 1; 

最 后 一 个 平面 ， 和 前 面 一 样 ， 留 作 动 争 规则 的 标记 。 


这 个 11 个 平面 编码 喜与 前 面 的 编码 吉 类 似 ， 但 更 明确 地 描述 了 当前 


回合 的 执 子 方 ， 对 棋子 气 数 的 描述 也 更 加 精细 。 这 两 个 编码 器 都 很 强 


大 ， 


能 够 显赫 地 改善 模型 的 性 能 。 








在 第 5 章 和 第 6 章 中 ， 我 们 了 解 了 许多 改进 深度 学 习 模 型 的 技术 ， 但 





是 在 所 有 实验 中 都 有 一 个 要 素 始终 没 变 : 我 们 一 直 都 使 用 随机 梯度 下 降 
作为 优化 器 。 虽 然 SGD 是 很 好 的 基准 ， 但 下 一 节 中 将 介绍 Adagrad 和 
Adadelta， 这 两 个 优化 器 都 可 以 显著 地 改善 训练 过 程 。 


7.5 ”使 用 上 自 适 应 梯度 进行 蜗 效 的 训练 


为 了 进一步 提高 围棋 动作 预测 模型 的 性 能 ， 我 们 将 介绍 随机 梯度 下 





日 
降 以 外 的 优化 器 ， 它 们 也 是 本 章 介 绍 的 最 后 一 组 工具 。 回 顾 第 5 半 ， 


SGD 的 更 新 规则 相当 简单 :对 于 参数 W， 如 果 从 反问 传播 得 到 的 误工 为 
AW， 并 且 指 定 学 习 率 为 ag， 则 在 SGD 中 ， 要 更 新 这 个 参数 ， 只 需要 计算 
W — aAWEN 9]。 





在 许多 情况 下 ， 这 样 的 更 新 规则 确实 可 以 带 来 不 错 的 结果 ， 但 它 也 
存在 着 一 些 缺 聊 。 我 们 可 以 通过 多 种 方式 对 简单 的 SGD 进 行 扩展 ， 从 而 
克服 这 些 缺 隐 ， 达 到 更 佳 的 效果 。 


7.5.1 在 SGD 中 采用 衰减 和 动量 





例如 ， 让 学 习 率 随 痢 时 间 的 推移 而 衰减 〈decay) 是 一 个 广泛 接受 
的 上 种 路 。 每 进行 一 次 更 新 ， 就 把 学 习 率 调 低 。 这 个 技巧 的 实用 效果 通 肖 
很 不 错 ， 因 为 在 训练 开始 阶段 ， 网 络 还 没有 学 到 任何 东西 ， 用 较 大 的 更 
新 步伐 去 接近 损失 函数 的 极 小 值 是 比较 合理 的 。 而 在 训练 过 程 达 到 一 定 
水 平 后 ， 就 应 当 缩 减 更 新 的 范围 ， 只 对 学 习 过 程 进行 适当 的 改进 ， 以 免 
破坏 学 习 进 度 。 通 党 来 说 ， 我 们 可 以 使 用 豆 减 计 《〈 即 下 一 步 缩减 的 百 分 
率 ) 来 指导 学 习 率 的 豪 减 。 











另 一 个 流行 的 技巧 是 动量 (momentum) ， 它 将 前 一 个 更 新 步骤 与 
当前 更 新 步 又 相 加 。 例 如 ， 如 果 W 是 想 要 更 新 的 参数 回 量 ，9W 是 由 W 
计算 的 当前 梯度 。 如 果 最 近 一 次 更 新 是 Q， 那 么 下 一 个 更 新 步骤 如 下 : 

We Wr = Ot 

这 里 ， 从 上 次 更 新 中 保留 的 部 分 y 被 称 为 动量 项 (momentum 

term) 。 如 果 两 个 梯度 项 都 指 癌 大 致 相同 的 方向， 则 下 一 个 更 新 步骤 会 


得 到 加 强 《“ 即 接收 动量 ) ;如 宁 两 个 梯度 项 指 回 相 上 反 的 方向 ， 则 会 相互 
抵消 ， 从 而 让 梯度 受到 抑制 。 动 量 技术 的 名 称 来 目 物 理学 概念 ， 如 采 把 
损失 函数 想象 成 一 个 曲面 ， 把 参数 想象 成 一 个 放 在 表面 上 的 球 ， 参 数 的 
更 新 就 描述 了 球 的 运动 。 由 于 我 们 的 梯度 是 下 降 的 ， 甚 至 可 以 把 参数 的 
更 新 过 程 想 象 成 球体 一 次 次 接收 新 的 运动 ， 从 而 沿 厦 曲 面 深 动 下 滑 的 过 
程 。 如 果 最 后 几 次 梯度) 更 新 步 又 都 指向 大 至 相同 的 方向 ， 球 体 将 加 
速 冲 向 目的 地 ， 即 曲面 的 极 小 值 处。 动量 技术 正 是 这 个 类 比 的 延伸 。 








在 Keras 中 ， 如 果 想 在 SGD 算 法 中 采用 衰减 或 动量 技术 ， 或 者 两 者 
同时 采用 ， 只 需 向 SGD 实 例 提供 它们 的 速率 参数 即 可 。 假 设 我 们 希望 
SGD 的 学 习 率 为 0.1， 衰 减 率 为 1%， 动 量 为 90%， 那 么 可 以 按照 代码 清 
单 7-26 来 指定 。 





代码 清单 7-26 ”在 Keras 中 使 用 动量 和 学 习 率 衰减 来 初始 化 SGD 








from keras.optimizers import SGD 


sgd = SGD(lr=0.1, momentum=0.9, decay=0.061) 





7.5.2 ”使 用 Adagrad 优 化 神经 网 络 





动量 和 学 习 率 袁 减 技术 在 优化 普通 SGD 时 都 表现 得 很 好 ， 但 是 它们 
仍然 存在 一 些 弱 点 。 例 如 在 围棋 棋盘 中 ， 专 业 棋 手 的 最 初 几 手 落 子 几乎 
都 在 棋盘 的 第 3 行 一 第 5 行 。 而 他 们 从 来 不 会 在 第 1 行 或 第 2 行 落 子 。 而 在 
棋局 终 盘 阶段 ， 情 况 则 相反 ， 那 时 候 很 多 棋子 都 会 落 在 棋盘 边缘 。 在 我 
们 用 过 的 所 有 深度 学 习 模 型 中 ， 最 后 一 层 都 是 尺寸 和 棋盘 尺寸 〈 即 
19x19) 相同 的 稠密 层 。 这 一 层 的 每 个 神经 元 都 对 应 棋盘 上 的 一 个 交叉 























点 。 如 果 使 用 SGD， 那 么 无 论 有 没有 采用 动量 或 衰减 技术 ， 所 有 神经 元 
的 学 习 率 都 是 一 样 的 。 这 可 能 会 导致 肪 烦 。 如 果 在 混 洗 训 练 数据 时 做 得 
不 够 好 ， 可 能 会 导致 学 习 率 已 经 下 降 了 太 多 ， 以 全 于 在 终 盘 阶 段 第 1、2 
行 上 的 动作 再 也 无 法 得 到 任何 有 用 的 更 新 了， 也 就 是 说 再 也 没有 学 习 效 
果 了 。 实 际 上 ， 我 们 通常 希望 以 往 不 常 观察 到 的 模式 仍然 能 够 获得 足够 
大 的 更 新 ， 而 频 系 出 现 的 模式 接收 到 的 更 新 会 越 来 越 小 。 











这 正 是 全 局 设置 学 习 率 所 市 来 的 问题 。 而 要 解决 它 ， 我 们 可 以 利用 
那些 采用 了 上 自 适 应 梯度 方法 的 技术 。 本 市 我 们 展示 其 中 两 个 方法 ， 
即 Adagrad 和 Adadelta。 


在 Adagrad 方 法 中 ， 不 设置 全 局 学 习 率 。 我 们 需要 为 每 个 参数 单独 
调整 学 习 率 。 当 拥有 大 量 数据 ， 而 数据 中 的 模式 出 现 频率 很 低 的 时 候 ， 
Adagrad 的 工作 效果 非常 好 。 而 我 们 的 应 用 场景 正 适 合 这 两 个 条 件 : 我 
们 拥有 大 量 的 围棋 数据 ， 而 且 由 于 专业 围棋 比赛 极端 复杂 ， 以 至 于 那些 
被 专业 人 士 认 为 是 标准 定式 的 落 子 动作 组 合 在 数据 集中 出 现 的 频率 并 不 
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假设 有 一 个 权重 向 量 W， 其 尺寸 为 ! (这 里 我 们 用 更 简单 的 向 量 来 讨 
论 ， 但 这 个 技术 也 能 应 用 于 更 加 通用 的 张 量 之 中 ) ， 其 中 每 一 项 元 素 
为 Wi。 在 基本 SGD 中 ， 对 于 这 些 参数 的 一 个 给 定 梯 度 5WWY ， 以 及 学 习 率 
a， 权 重 W; 的 更 新 规则 如 下 所 示 : 


Wi € Wi — aOW 














在 Adagrad 方 法 中 ，a 项 被 葵 换 为 根据 Wi 之 前 的 更 新 状况 对 每 个 下 


标 i 进 行动 态 适 配 的 参数 。 实 际 上 ， 在 Adagrad 方 法 中 ， 每 个 单独 的 学 习 
率 与 之 前 更 新 速率 成 反比 。 更 准确 地 说 ， 在 Adagrad 方 法 中 ， 可 以 用 如 
下 方式 来 更 新 参数 : 


Or - 
一- 一 -9VT 
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在 这 个 公式 中 ，e 是 一 个 很 小 的 正 数 ， 用 来 确保 不 会 出 现 除 零 错 
误 ， 而 Gij 则 是 目前 为 止 收 到 的 梯度 Wi 的 平方 和 。 我 们 用 Gi 的 形式 ， 是 
因为 可 以 把 这 一 项 看 作 一 个 维度 为 的 方 阵 G 的 一 部 分 ， 这 个 矩阵 中 所 有 
的 对 角 项 G, , 正 是 前 面 所 说 的 值 ， 而 除 对 角 项 之 外 ， 其 他 所 有 项 的 值 都 
是 0。 这 种 形式 的 矩阵 被 称 为 对 角 和 矩阵 。 每 次 参数 更 新 之 后 ， 把 对 角 项 
与 最 新 的 梯度 贡献 值 相 加 来 更 新 G。 以 上 就 是 Adagrad 方 法 的 全 部 定义 ， 
但 如 果 想 要 用 更 简明 、 与 下 标 无 关 的 形式 来 写 出 这 个 规则 ， 可 以 这 么 
做 : 





Or 


VG+e:0W 
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注意 ， 因 为 G 是 一 个 矩阵 ， 因 此 需要 把 s 加 到 和 窍 阵 的 每 一 项 Ci ;上 ， 
并 且 w 也 需要 除 以 矩阵 的 每 个 元 素 。 此 外 ，G. 环 代表 的 是 G 和 9 两 者 
间 的 矩阵 乘法 。 要 在 Keras 中 使 用 Adagrad， 可 以 按照 代码 清单 7-27 来 编 
译 一 个 使 用 Adagrad 优 化 器 的 模型 。 




















代码 清单 7-27 使 用 Adagrad 优 化 器 来 构建 Keras 模 型 


from keras.optimizers import Adagrad 
adagrad = Adagrad() 

















与 其 他 SGD 技 术 相 比 ，Adagrad 的 一 个 关键 优势 是 不 需要 再 手动 设 
置 学 习 率 了 。 这 样 就 少 了 一 件 需 要 操心 的 事情 。 寻 找 恨 好 的 网 络 架 构 并 
对 模型 的 所 有 参数 进行 调 优 ， 已 经 是 非常 困难 的 事情 了 。 实 际 上 ， 可 以 
用 Adagrad(lr=8.862) 来 改变 Keras 的 初始 学 习 率 ， 但 本 书 中 并 不 建议 这 
样 做 。 





7.5.3 ”使 用 Adadelta 优 化 自 适应 梯度 


另 一 个 名 为 Adadelta 的 优化 器 与 Adagrad 很 相似 ， 它 在 Adagrad 的 基 
础 上 进行 了 进一步 扩展 。 在 Adadelta 中 ， 我 们 不 需要 再 在 矩阵 G 里 积累 
所 有 过 去 的 梯度 《的 平方 ) ， 而 是 使 用 类 似 于 动量 技术 的 方式 ， 只 保留 
上 次 更 新 的 一 部 分 ， 然 后 与 当前 梯度 相 加 即 可 : 





Ge-7G+(l -OW 
虽然 Adadelta 的 思路 大 致 如 此 ， 但 它 的 细节 机 制 与 精确 的 更 新 规则 


就 有 点 过 于 复杂 了 ， 无 法 展示 在 丁 中。 我们 建议 读者 查看 原始 文档 以 
了 解 更 多 细节 。 





在 Keras 中 ， 可 以 用 代码 清单 7-28 所 示 的 方式 使 用 Adadelta 优 化 器 。 
代码 清单 7-28 ”使 用 Adadelta 优 化 器 来 构建 Keras 模 型 
from keras.optimizers import Adadelta 
adadelta = Adadelta() 


在 训练 深度 神经 网 络 处 理 围棋 数据 时 ， 与 随机 梯度 下 降 相 比 ， 
Adagrad 和 Adadelta 都 有 很 大 的 帮助 。 在 后 面 章节 中 更 高 级 的 模型 里 ， 我 











们 将 种 第 使 用 其 中 之 一 作为 模型 的 优化 局 。 


7.6 ”运行 目 己 的 实验 并 评估 性 能 








在 第 5 章 、 第 6 章 和 本 章 中 ， 我 们 展示 了 很 多 深度 学 习 技 术 ， 并 提供 
了 一 些 提 示 和 几 个 示例 架构 作为 基准 。 现 在 到 了 训练 模型 的 时 候 了 。 在 
机 絮 学 习 实验 中 ， 尝 试 各 种 超 参 数 的 组 合 是 至 天 重要 的 ， 例 如 ， 用 多 少 
层 ， 选 择 哪 种 层 ， 训 练 多 少 个 迭代 周期 ， 等 等 。 在 深度 神经 网 络 中 尤其 
如 此 ， 我 们 面临 的 参数 组 合 数 可 能 数不胜数 。 只 调整 条 一 个 特定 的 参数 
对 模型 性 能 并 不 总 能 有 明显 的 影响 。 深 度 学 习 的 研究 人 员 常 常 需要 依赖 
大 量 的 实验 结果 ， 以 及 几 十 年 研究 积累 的 更 深层 理论 来 形成 他 们 的 直 
党 。 我 们 无 法 提供 如 此 深刻 的 知识 ， 但 是 可 以 帮助 读者 开始 建立 目 己 的 
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在 我 们 这 样 的 实验 用 例 〔 即 训练 神经 网 络 以 尽 可 能 好 地 预测 围棋 动 
作 ) 中 ， 要 想 取得 优良 的 结果 ， 关 键 的 因素 是 快速 实验 周期 。 必 须 用 很 
短 的 时 间 去 构建 模型 架构 、 局 动 模型 训练 、 观 凤 和 评估 性 能 指标 ， 然 后 
重新 调整 模型 ， 并 重新 局 动 流程 。 从 Kaggle 网 站 的 数据 科学 竞赛 就 可 以 
看 出 ， 获 胜 的 往往 是 那些 答 试 次 数 最 多 的 团队 。 羊 运 的 是 ，Keras 本 喘 
就 是 基于 快速 实验 思想 构建 的 。 这 也 是 我 们 选择 它 作 为 本 书 的 深度 学 习 
框架 的 主要 原因 之 一 。 我 们 希望 读者 也 能 感受 到 用 Keras 构 建 神经 网 络 
的 快捷 性 ， 以 及 修改 实验 配置 的 方便 性 。 





7.6.1 测试 染 构 与 超 参数 的 指南 


让 我 们 来 看 看 构建 动作 预测 网 络 时 的 一 些 实践 性 考量 。 





卷 积 神经 网 络 是 围棋 动作 预测 网 络 的 一 个 优秀 候选 。 一 定 要 明白 ， 
仅 用 稠密 层 会 导致 较 差 的 预测 质量 。 通 常 来 说 ， 建 立 由 多 个 卷 积 层 
和 最 后 的 一 两 个 稠密 层 所 组 成 的 网 络 是 必要 的 。 在 后 面 的 章节 中 ， 
我 们 还 将 看 到 更 复杂 的 体系 结构 ， 但 是 现在 使 用 卷 积 网 络 就 够 了 。 
改变 卷 积 层 的 核 尺 寸 ， 观 察 它 的 变化 对 模型 性 能 有 什么 影响 。 根 据 
我 们 的 经 验 ， 核 尺寸 设 在 2 一 7 是 比较 合适 的 ， 大 太 多 就 没 必 要 了 。 
如 果 使 用 了 池 化 层 ， 请 确保 把 最 大 池 化 和 平均 池 化 都 用 上 。 但 更 重 
要 的 是 ， 不 要 选择 太 大 的 池 化 尺寸 。 在 我 们 的 应 用 场景 里 ， 最 大 尺 
寸 不 要 超过 3 是 比较 合适 的 。 最 好 也 尝试 在 不 使 用 池 化 层 的 情况 下 
构建 网 络 ， 这 可 能 会 让 计算 成 本 更 加 高 昂 ， 但 应 该 会 有 不 错 的 效 
果 。 

请 使 用 丢弃 层 进行 正则 化 。 第 6 章 中 我 们 已 经 对 如 何 使 用 丢弃 层 来 
防止 模型 过 拟 合 有 所 了 解 。 网 络 通常 会 因为 添加 丢弃 层 而 受益 ， 只 
要 别 添加 得 太 多 或 者 将 丢弃 率 设 置 得 过 高 即 可 。 

在 网 络 的 最 后 一 层 使 用 softmax 激 活 函 数 ， 因 为 有 了 它 就 可 以 得 到 
概率 分 布 ， 并 且 与 分 类 交叉 烂 损失 函数 相配 合 ， 会 非常 适合 我 们 的 
应 用 场景 。 

笠 试 使 用 不 同 的 激活 函数 。 我 们 已 经 介绍 过 ReLU 和 sigmoid 激 活 函 
数 ， 其 中 ReLU 应 该 是 默认 选择 。 在 Keras 中 还 可 以 使 用 许多 其 他 的 
激活 函数 ， 如 ELU、SELU、PReLU 和 LeakyReLU。 我 们 无 法 在 这 
里 详细 讨论 这 些 ReLU 变 体 ， 但 读者 可 以 在 Keras 官 方 网 站 上 找到 它 
们 的 详尽 用 法 。 

改变 小 批量 的 尺寸 对 模型 的 性 能 会 有 影响 。 对 于 第 5 章 中 MNIST 这 
类 预测 问题 ， 通 常 建议 选择 与 类 别 数 相同 的 小 批量 尺寸 。 对 于 
MNIST， 小 批量 尺寸 通常 会 在 10 一 50。 这 样 的 话 ， 如 果 数 据 是 完 
随机 的 ， 则 每 个 梯度 都 能 够 从 所 有 类 别 中 接收 信息 ，SGD 会 表现 得 






































更 好 。 在 我 们 的 应 用 场景 中 ， 某 些 围棋 动 作 会 比 其 他 动作 要 频 党 得 
多 。 例 如 ， 棋 盘 的 4 个 角 沙 很 少 沙 子 ， 尤 其 是 与 星 点 相 比 。 数 据 中 
的 这 种 现象 ， 我 们 称 之 为 类 别 不 均衡 现象 。 在 这 种 情况 下 ， 就 无 法 
期 望 一 个 小 批量 能 履 盖 所 有 类 别 了 。 因 此 我 们 需要 采用 16 一 256 的 
小 批量 尺寸 〈 这 个 范围 是 我 们 从 各 类 研究 文献 中 找到 的 ) 。 

优化 器 的 选择 对 网 络 的 学 习 效 果 也 有 相当 大 的 有 影响。 我 们 已 经 有 几 
种 选择 可 供 实 验 : 包含 学 习 率 衰减 与 否 的 9GD， 以 及 Adagrad 或 
Adadelta。 在 Keras 官 方 网 站 上 还 可 以 找到 其 他 可 能 对 模型 训练 过 程 
有 益 的 优化 器 。 

模型 训练 的 迭代 周期 数 也 必须 适当 地 挑选 。 如 果 使 用 模型 检查 点 并 
跟踪 每 个 迭代 周期 的 各 种 性 能 指标 ， 就 可 以 有 效 地 衡量 训练 在 哪个 
阶段 不 再 有 效 改 进 了 。 在 下 一 节 和 最 后 一 节 中 我 们 将 简要 讨论 如 何 
评估 性 能 指标 。 通 用 的 经 验 法 则 是 ， 假 设 有 足够 的 计算 能 力 ， 就 尽 
量 把 迭代 周期 数 设置 得 更 高 ， 而 不 要 设置 得 太 低 。 如 果 发 现 模 型 训 
练 在 某 个 迭代 周期 之 后 停止 改进 ， 或 者 甚至 由 于 过 拟 合 而 变 得 更 
糟 ， 我 们 仍然 有 机 会 改 用 更 早 的 检查 点 模型 。 














权重 初始 值 


如 何在 训练 开始 前 初始 化 各 个 权重 ， 是 调整 深度 神经 网 络 的 另 一 个 
关键 问题 。 由 于 网 络 优 化 意味 着 要 找到 一 组 权重 值 对 应 于 损失 曲面 上 的 
极 小 值 ， 因 此 权重 的 初始 值 很 重要 。 在 第 5 章 的 网 络 实现 中 ， 我 们 为 各 
个 权重 分 配 了 随机 的 初始 值 ， 然 而 这 并 不 是 一 个 好 办 法 。 








权重 初始 化 是 一 个 有 趣 的 研究 谍 题 ， 几 乎 值得 用 一 整 章 来 介绍 。 
Keras 有 许多 权重 初始 化 方案 ， 每 个 包含 权重 的 层 都 可 以 单独 进行 初始 





化 。 但 我 们 并 没有 在 正文 中 介绍 它们 ， 原 因 是 Keras 默 认 选 择 的 初始 化 
器 已 经 足够 好 ， 费 心 更 改 它们 往往 是 不 值得 的 。 通 常 来 说 ， 神 经 网 络 的 
配置 还 有 很 多 地 方 更 值得 关注 。 但 了 解 不 同 初始 化 方案 的 差异 总 是 一 件 
好 事 。 如 果 高 阶 用 户 想 要 尝试 不 同 Keras 初 始 化 器 ， 可 以 参考 Keras 官 方 
网 站 上 的 相关 资料 。 








7.6.2 ”评估 训练 与 测试 数据 的 性 能 指标 


在 7.3 节 中 ， 我 们 展示 了 在 一 个 小 数据 集 上 执行 的 训练 执行 结 
我 们 使 用 的 网 络 是 一 个 相对 较 小 的 郑 积 网 络 ， 而 且 只 训练 了 5 个 达 代 周 
期 。 在 这 个 实验 中 ， 我 们 跟踪 训练 数据 上 的 损失 率 和 准确 率 ， 并 使 用 测 
试 数据 进行 验证 。 最 后 ， 我 们 在 测试 数据 上 计算 了 预测 准确 京 。 这 是 所 
有 训练 都 应 当 遵循 的 标准 工作 流程 。 但 是 怎么 判断 应 当 何 时 终止 训练 ， 
怎么 友 现 训练 出 问题 了 呢 ?” 以 下 几 扣 可 供 参 考 。 








。 每 一 个 训练 碗 代 周 期 之 后 ， 训 练 的 准确 率 和 损失 率 都 应 当 有 所 改 
进 。 在 最 后 几 个 迭代 周期 中 ， 指 标的 提高 程度 会 逐渐 减少 ， 甚 至 可 
能 会 来 回 波 动 。 如 果 连 续 几 代 都 没有 看 到 任何 明显 改善 ， 惑 可 能 需 
要 停止 训练 了 。 

同时 ， 应 该 关注 验证 的 损失 率 和 准确 率 分 别 是 什么 情况 。 在 训练 早 
期 阶段 ， 验 证 损失 率 应 当 持 续 下 降 ， 但 在 训练 后 期 阶段 ， 通 闸 会 看 
到 验证 损失 率 逐 渐 趋 于 平稳 ， 并 开始 再 次 增加 。 这 是 一 个 明显 的 迹 
象 ， 表 明 网 络 开始 在 训练 数据 上 过 拟 合 了 。 

。 如 果 使 用 了 模型 检查 点 ， 就 可 以 选择 训练 准确 紊 很 蜗 但 验证 损失 率 





仍然 较 低 的 一 代 ， 用 当时 保存 的 检查 点 模型 作为 结果 。 
。 如 果 训 练 和 验证 的 损失 率 都 很 高 ， 请 答 试 选择 更 深层 次 的 网 络 架 
构 ， 或 调整 其 他 超 参 数 。 
如 果 训 练 损失 率 较 低 ， 但 验证 损失 率 较 高 ， 则 表示 模型 过 拟 合 了 。 
如 果 拥 有 特别 庞大 的 训练 数据 集 ， 这 种 情况 通常 不 会 发 生 。 我 们 拥 
有 超过 17 万 局 围棋 比赛 数据 ， 相 当 于 数 百 万 步 可 供 学 习 的 沙子 动 
作 ， 应 该 不 会 发 生 这 个 问题 。 
选择 训练 数据 的 尺寸 时 ， 应 当 与 运行 的 硬件 条 件 相 匹配 。 如 果 一 个 
训练 迭代 周期 要 几 个 小 时 以 上 ， 就 没有 那么 有 趣 了 。 这 时 候 可 以 先 
在 中 型 数据 集 上 进行 多 次 尝试 ， 找 到 性 能 民 好 的 模型 ， 然 后 再 用 尺 
可 能 大 的 数据 集 再 次 训练 这 个 模型 。 
如 果 没 有 足够 好 的 GPU， 可 以 选择 在 云 上 训练 模型 。 我 们 在 附录 D 
中 展示 如 何 用 Amazon Web Services (AWS) 在 GPU 上 训练 模型 。 
在 比较 不 同 训练 过 程 的 时 候 ， 如 果 有 一 次 训练 在 过 程 中 看 起 来 比 前 
一 次 糟糕 ， 请 不 要 过 早 地 停止 训练 。 有 些 模 型 的 学 习 进 程 会 比 其 他 
模型 慢 ， 但 最 终 可 能 会 赶 上 甚至 超过 其 他 模型 。 














读者 可 能 会 问 ， 使 用 本 章 提 供 的 方法 到 撒 可 以 构建 多 强 的 围棋 机 器 
人 。 理 论 上 的 上 限 是 这 样 的 :在 围棋 中 ， 神 经 网 络 永 远 无 法 比 提供 给 它 
的 数据 做 得 好 。 特 别 地 ， 如 宁 只 用 监督 深度 学 习 撤 术 《〈 最 近 3 章 都 是 如 
此 ) 是 无 法 达到 超越 人 类 的 水 准 的 。 在 实践 中 ， 如 果 有 足够 的 计算 能 
和 时 间 ， 那 么 围棋 机 顺 人 完全 有 可 能 达到 大 约 职业 2 段 的 程度 。 











要 得 到 超越 人 类 的 表现 ， 就 需要 使 用 强化 学 习 技 术 了 。 我 们 将 在 第 
9 章 至 第 12 章 介绍 这 个 课题 。 之 后 ， 在 第 13 章 和 第 14 章 中 ， 我 们 就 可 以 
将 强化 学 习 、 有 监督 的 深度 学 习 ， 以 及 第 4 章 中 介绍 过 的 树 搜索 技术 结 
合 起 来 ， 构 建 更 为 强大 的 机 器 人 。 








但 在 深入 研究 构建 更 强大 机 器 人 的 方法 之 前 ， 我 们 将 先 在 第 8 章 中 
展示 如 何 部 普 机 器 人 ， 并 让 它们 能 够 与 环境 进行 交互 ， 与 人 类 棋 手 或 其 
他 机 器 人 进行 对 抗 。 
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以 用 来 为 神经 网 络 建立 数据 集 。 

围棋 数据 可 以 进行 并 行 处 理 ， 以 提高 处 理 速度 。 另 外 ， 还 可 以 用 数 
据 生成 器 来 高 效 地 提供 围棋 数据 。 

有 了 强大 的 业余 高 段 到 职业 段位 的 棋谱 ， 就 可 以 构建 出 效果 良好 的 
深度 学 习 模 型 ， 用 于 围棋 动作 预测 。 

如 果 了 解 训 练 数据 的 某 些 重 要 属性 ， 束 可 以 显 式 地 将 它们 编码 到 特 
征 平面 中 。 这 样 模型 就 可 以 快速 地 学 习 到 特征 平面 与 我 们 试图 预测 
的 结果 之 间 的 关联 。 例 如 ， 对 围棋 机 器 人 来 说 ， 可 以 添加 特征 平面 
来 表示 一 条 棋 链 的 气 数 〈 即 与 之 相 邻 的 空 点 数 ) 。 

使 用 Adagrad 或 Adadelta 之 类 的 自 适 应 梯度 技术 可 以 提升 训练 的 效 
果 。 这 两 种 算法 会 随 着 训练 过 程 的 进展 动态 调整 学 习 率 。 

可 以 在 一 个 相对 较 小 的 脚本 中 实现 端 到 端的 整个 模型 训练 汽 程 。 可 
以 把 这 个 脚本 作为 模板 ， 继 续 构 建 我 们 自己 的 实验 。 








第 8 章 ”实地 部 闭 围 棋 机 器 人 


本 章 主要 内 容 
。 从 头 到 尾 构建 一 个 应 用 ， 用 来 训练 和 运行 围棋 机 器 人 。 
。 开 发 一 个 前 端 ， 让 人 们 可 以 与 机 器 人 人 对弈。 
。 让 机 器 人 在 本 地 与 其 他 机 器 人 对 弈 。 
。 把 机 器 人 部 署 到 在 线 围棋 服务 器 上 。 


到 目前 为 上 上 ， 我 们 已 经 掌握 了 如 何 构建 和 训练 一 个 强大 的 深度 学 习 
模型 来 进行 围棋 动作 预测 。 但 是 如 何 把 它 集 成 到 一 个 应 用 中 与 对 手 进行 
对 奔 呢 ? 无 论 是 想 自 己 下 棋 ， 还 是 想 让 机 器 人 与 其 他 机 器 人 竞争 ， 神 经 
网 络 的 训练 都 只 是 构建 完整 应 用 的 一 部 分 工作 。 训 练 好 的 模型 必须 集成 
到 一 个 可 以 进行 对 抗 的 引擎 中 。 








在 本 章 中 ， 我 们 将 构建 一 个 简单 的 围棋 模型 服务 器 ， 以 及 两 个 前 
端 。 首 先 ， 我 们 提供 一 个 HITP 前 端 ， 可 以 用 它 来 与 机 器 人 进行 对 弈 。 
然后 ， 我 们 将 介绍 围棋 文本 协议 〈Go Text Protocol，GTP) ， 一 种 围棋 
机 器 人 广泛 采用 的 信息 交换 协议 。 有 了 它 ， 我 们 的 机 器 人 就 可 以 与 其 他 
机 器 人 《如 GNU Go 或 Pachi 这 两 个 基于 GTP 的 免费 围棋 程序 ) 进行 对 奔 
了 。 最 后 ， 我 们 将 展示 如 何在 Amazon Web Services (AWS) 上 部 署 转 


棋 机 器 人 ， 并 把 它 连接 到 Online Go Server (OGS) 上 。 这 样 ， 机 器 人 就 
能 够 在 一 个 真实 的 环境 中 参与 排名 比赛 ， 与 世界 各 地 的 其 他 机 器 人 或 人 
类 玩家 相互 鄞 争 ， 甚 至 参加 各 类 锅 标 赛 。 要 实现 上 述 目 标 ， 应 先 学 习 如 
何 处理 下 列 任务 。 








。 构建 一 个 动作 预测 代理 一 一 第 6 章 和 第 7 章 中 训练 的 神经 网 络 需要 和 集 
成 到 一 个 框架 中 ， 这 样 才能 够 在 对 弈 棋局 中 使 用 它们 。 在 8.1 节 
中 ， 我 们 将 回顾 第 3 章 〈 我 们 在 那里 创建 了 一 个 只 会 随机 落 子 的 代 
理 ) 中 代理 的 概念 ， 并 以 此 为 基础 开发 一 个 深度 学 习 代 理 。 
提供 一 个 图 形 化 的 界面 一 一 为 了 方便 地 与 围棋 机 器 人 对 战 ， 人 们 需 
要 某 种 (图 形 化 的 ) 界面 。 尺 管 到 目前 为 止 命令 行 界面 已 经 够 用 ， 
但 在 8.2 节 中 ， 我 们 还 是 会 为 机 器 人 提供 一 个 更 有 乐趣 的 游戏 前 
端 。 
将 机 器 人 部 署 到 云端 一 如 果 计 算 机 里 没有 强大 的 GPU， 就 无 法 训 
练 出 强大 的 围棋 机 器 人 。 幸 运 的 是 ， 多 数 大 型 云 服务 提供 商都 提供 
按 需 GPU 实例 服务 。 而 且 ， 即 使 我 们 已 经 拥有 足够 强大 的 GPU 用 于 
训练 ， 也 仍然 可 能 需要 在 服务 器 上 托管 之 前 训练 过 的 模型 。 在 8.3 
节 中 ， 我 们 将 展示 如 何 实现 这 一 点 。 附 录 D 中 可 以 了 解 到 更 多 关于 
如 何在 AWS 中 进行 全 部 设置 的 详细 信息 。 
与 其 他 机 器 人 对 话 一 一 人 们 使 用 图 形 化 界面 或 其 他 接口 进行 交互 ， 
而 机 器 人 习惯 上 则 是 通过 标准 化 协议 来 进行 通信 的 。 在 8.4 节 中 ， 
我 们 将 介绍 通用 GTP。 这 个 协议 是 实现 以 下 两 个 功能 的 基本 组 件 。 
o 与 其 他 机 器 人 对 弈 一 一 接 下 来 在 8.5 节 中 ， 我 们 将 为 机 器 人 构 
如 一 个 GTP 前 端 ， 让 它 可 以 与 其 他 程序 进行 对 询 。 我 们 将 展示 
如 何 让 机 器 人 在 本 地 与 其 他 两 个 围棋 程序 进行 对 战 ， 并 观察 自 
己 创 造 的 成 果 有 多 强 。 
o 将 机 器 人 部 署 到 在 线 围 棋 服 务 器 一 最后， 在 8.6 节 中 ， 我 们 
将 展示 如 何 回 在 线 围 棋 平 台 部 署 机 器 人 ， 以 便 与 网 站 的 注册 用 






































户 或 他 机 器 人 人 竞争。 这样， 机 器 人 甚至 可 以 参与 排名 比赛 和 锦 
标 赛 。 最 后 一 节 将 介绍 这 些 内 容 ， 但 由 于 这 个 话题 大 部 分 都 是 
技术 性 材料 ， 因 此 我 们 把 多 数 细节 放 在 附录 E 中 。 








8.1 用 深度 神经 网 络 创建 动作 预测 代理 


现在 ， 我们 已 经 准备 好 了 为 围棋 数据 构建 一 个 强大 的 神经 网 络 的 所 
有 模块 ， 让 我 们 把 神经 网 络 集成 到 一 个 代理 (agent)〉 中 ， 以 供 其 他 程 
序 使 用 。 回 想 一 下 第 3 章 中 的 Agent 概 念 。 我 们 将 它 定义 为 一 个 类 ， 通 
过 实现 select_move 方 法 ， 它 可 以 为 当前 游戏 状态 选择 下 一 步 动 作 。 我 
们 用 Keras 模 型 和 我 们 的 围棋 棋盘 编码 器 〈Encoder) 来 编写 一 
个 DeepLearningAgent (这 些 代 码 放 在 dlgo 模 块 下 的 agent 模 块 中 的 
predict.py 文 件 中 ) ， 如 代码 清单 8-1 所 示 。 

















代码 清单 8-1 ”使 用 Keras 模 型 和 围棋 棋盘 编码 器 初始 化 代理 











import numpy as np 


from dlgo.agent.base import Agent 

from dlgo.agent.helpers import is_point_an_eye 
from dlgo import encoders 

from dlgo import goboard 


from dlgo import kerasutil 


class DeepLearningAgent(Agent ) : 
def _init (self, model, encoder): 
Agent. init (self) 
self.model = model 
self.encoder = encoder 





编码 器 用 来 将 棋盘 状态 转换 为 特征 ， 模 型 用 于 预测 下 一 步 动 作 。 实 
际 上 ， 这 个 模型 会 计算 所 有 可 能 动作 的 概率 分 布 ， 之 后 再 从 中 选取 结 





果 ， 如 代码 清单 8-2 所 示 。 


代码 清单 8-2 ”编码 棋盘 状态 并 利用 模型 预测 动作 概率 








def predict(self, game state): 
encoded state = self.encoder.encode(game_ state) 
input tensor = np.array([encoded state]) 
return self.model.predict(input tensor)[e] 


select move(self, game_ state): 
num_moves = self.encoder.board width * self.encoder.board height 
move_probs = self.predict(game_ state) 





接 下 来 稍微 调整 一 下 存储 在 move_probs 中 的 概率 分 布 ， 如 代码 清 
单 8-3 所 示 。 首 先 计算 所 有 值 的 立方 ， 大 幅 增加 可 能 性 较 大 和 可 能 性 较 
小 的 动作 之 间 的 距离 。 我 们 希望 尽 可 能 多 地 选择 最 好 的 动作 。 然 后 用 一 
个 称 为 剪裁 《〈clipping) 的 技巧 来 防止 动作 的 概率 过 于 接近 0 或 1。 定 义 
一 个 很 小 的 正 值 e = 0.000 001， 并 将 所 有 小 于 e 的 概率 值 设 为 :， 将 大 于 
1-e 的 概率 值 设 为 1-e。 最 后 对 所 有 结果 值 进行 归 一 化 处 理 ， 再 次 得 到 一 
个 概率 分 布 。 


























代码 清单 8-3 ”对 概率 分 布 进行 绒 放 、 檀 裁 ， 并 再 次 进行 归 一 化 





























move_probs = move probs ** 3 <--- 增加 可 能 性 较 大 和 较 小 的 动作 之 间 
的 嚼 





eps = 1e-6 





move_probs = np.clip(move probs, eps, 1 - eps) <--- 防止 动作 概 
率 过 于 接近 6 或 1 
move_probs = move probs / np.sum(move_probs) <--- ”再 次 进行 归 一 


化 处 理 ， 得 到 另 一 个 概率 分 布 
































做 这 个 变换 的 目的 是 根据 动作 概率 从 这 个 分 布 中 进行 抽样 ， 如 代码 
清单 8-4 所 示 。 必 一 种 可 行 的 办 法 是 不 做 抽样 ， 而 直接 选择 可 能 性 最 大 
的 动作 〈 即 在 概率 分 布 上 取 极 大 值 )。 我 们 之 所 以 采取 抽样 策略 ， 是 因 











为 有 时 候 ， 尤 其 当 从 众多 选项 中 无 法 找到 脱颖而出 的 动作 的 时 候 ， 可 以 
根据 抽样 选择 其 他 动作 。 








代码 清单 8-4 ”尝试 从 已 排序 的 候选 动作 列表 中 选择 下 一 步 动作 











candidates = np.arange(num moves) <--- 将 概率 列表 转换 为 一 个 有 序 
的 动作 列表 
ranked moves = np.random.choice( 
candidates, num moves, replace=False, p=move probs) 
对 潜在 候选 动作 进行 抽样 
for point idx in ranked moves: 
point = self.encoder.decode point index(point idx) 




















if game_state.is valid move(goboard.Move.play(point)) and \ 
not is point an eye(game state.board, point, 
game_state.next player): <--- 从 顶端 开始 ， 找 到 一 个 不 会 导致 眼 减少 的 合 
法 动作 


Peturn goboard.Move.play(point) 
return goboard.Move.pass_ turn() <--- ”如 果 无 法 找到 不 导致 自 吃 的 合 
法 动作 ， 则 选择 跳 过 当前 回合 











为 方便 起 见 ， 还 需要 持久 化 存储 DeepLearningAgent 的 实例 ， 以 
便 稍 后 可 以 再 获取 它 。 实 践 中 的 典型 情况 是 : 训练 好 一 个 深度 学 习 模 型 
并 为 它 创建 一 个 代理 ， 然 后 将 其 持久 化 。 之 后 的 茶 个 时 刻 ， 在 需要 用 这 
个 代理 提供 服务 的 时 候 ， 将 它 反 序列 化 并 运行 起 来 ， 这 样 人 们 或 其 他 机 
器 人 融 可 以 与 乙 对 奔 了 。 要 执行 序列 化 步骤 ， 可 以 利用 Keras 的 序列 化 
格式 。Keras 模 型 在 持久 化 时 存储 在 HDF5 文 件 中 ， 这 是 一 种 高 效 的 序列 
化 格式 。HDF5 文 件 包含 各 种 灵活 的 群 组 〈group) ， 可 以 用 于 存储 元 信 
息 (meta-information) 或 数据 〈data) 。 任 何 Keras 模 型 都 可 以 通过 调 
用 model.save("model_path.h5") 将 整个 模型 〈 包 括 神经 网 络 架构 和 
它 的 所 有 权重 ) 持久 化 存储 到 本 地 文件 model_path.h5 中 。 要 使 用 Keras 
持久 化 功能 ， 只 需要 安装 Python 库 h5py 即 可 ， 可 以 使 用 pip instal1 
h5py 来 安装 它 。 











要 存储 完整 的 代理 实例 ， 还 需要 增加 一 个 额外 的 群 组 来 存储 围棋 棋 
盘 编 码 器 的 相关 信息 ， 如 代码 清单 8-5 所 示 。 






































代码 清单 8-5 ”序列 化 一 个 深度 学 习 代 理 实 例 














def serialize(self, hsfile): 
hsfile.create group('encoder') 
hsfile['encoder'].attrs['name'] = self.encoder.name() 
hsfile['encoder'].attrs['board width'] = self.encoder.board width 


hsfile['encoder'].attrs['board height'] = self.encoder.board heigh 


hsfile.create group('model') 
kerasutil.save model to hdf5 group(self.model, hsfile[ 'model']) 





最 后 ， 在 完成 模型 的 序列 化 之 后 ， 还 需要 知道 如 何 从 HDF5 文 件 中 
加 载 模型 ， 如 代码 清单 8-6 所 示 。 

















代码 清单 8-6 ”从 HDF5 文 件 中 反 序 列 化 DeepLearningAgent 实 例 














def load prediction agent(h5file): 
model = kerasutil.load model from hdf5 group(h5file['model']) 
encoder name = h5file['encoder'].attrs['name'] 
if not isinstance(encoder name, str): 
encoder name = encoder name.decode('ascii') 


board width = hsfile['encoder'].attrs['board width'] 
board height = hsfile['encoder'].attrs['board height'] 
encoder = encoders.get encoder by _namel( 

encoder name, (board width, board height)) 
return DeepLearningAgent(model, encoder) 





以 上 就 是 我 们 对 深度 学 习 代 理 的 全 部 定义 。 下 一 步 ， hh 
蛙 能 够 连接 到 一 个 环境 ， 并 与 环境 进行 交互 。 要 做 到 这 一 点 ， 可 以 把 
DeepLearningAgent 般 入 一 个 Web 应 用 ， 这 样 人 们 就 可 以 用 自己 的 浏 
览 器 与 它 进 行 对 蛮 了 。 





8.2 ”为 围棋 机 器 人 提供 Web 前 闹 





在 第 6 章 和 第 7 章 中 ， 我 们 设计 并 训练 了 一 个 神经 网 络 ， 它 能 够 预测 
人 类 棋 手 在 围棋 游戏 中 将 会 如 何 落 子 。 在 8.1 市 中 ， 我 们 将 落 子 动作 的 
栅 测 模型 转换 为 一 个 DeepLearningAgent， 它 能 够 进行 动作 选择 。 下 
一 步 ， 我 们 就 可 以 让 机 器 人 开始 下 棋 了! 在 第 3 章 中 ， 我 们 构建 了 一 个 
基本 的 命令 行 界 面 ， 让 人 们 可 以 在 键盘 上 输入 动作 ， 而 笨拙 的 
RandomBot 则 会 把 它 的 回应 动作 输出 到 控制 台 。 现 在 ， 我 们 已 经 构建 了 
一 个 更 复杂 的 机 器 人 ， 它 也 应 当 配 备 一 个 更 好 的 前 端 来 与 人 们 过 招 。 


在 本 节 中 ， 我 们 将 为 DeepLearningAgent 编 写 一 个 Python 的 Web 应 
用 ， 以 便 在 Web 浏览 器 中 使 用 它 。 我 们 使 用 轻 量 的 Flask 库 ， 通 过 HTTP 
来 运行 代理 实例 。 浏 览 器 前 端 使 用 一 个 名 为 jgoboard 的 JavaScript 库 来 呈 
现 人 机 交互 围棋 棋盘 。 这 段 代 码 可 以 在 GitHub 代 码 库 的 dlgo 中 的 
httpfrontend 模 块 中 找到 。 这 里 我 们 不 打算 详细 讨论 这 段 代 码 ， 因 为 我 们 
不 想 把 话题 从 构建 围棋 AI 的 核心 主题 转移 到 使 用 其 他 语言 (如 HTML 或 
JavaScript) 来 开发 Web 应 用 。 我 们 将 大 致 讨论 这 个 应 用 的 功能 ， 以 及 在 
完整 的 示例 中 使 用 它 的 方法 。 图 8-1 展 示 的 是 本 章 将 要 构建 的 应 用 的 概 


Way 
见 。 





用 户 在 浏览 器 中 JS 围棋 棋盘 应 用 通过 
执行 一 个 动作 。 HTTP POST 请 求 发 送 Flask 应 用 对 POST 请 求解 码 
游戏 状态 。 并 构造 一 个 GameState 对 象 。 


POST /select-move/bot-name 
浏览 器 








Flask 应 用 


select_ move() 








Agent 实 例 





Agent 实 例 选择 一 个 落 子 动作 。 




















图 8-1 构建 围棋 机 器 人 Web 前 端 。httpfrontend 模 块 启动 一 个 Flask Web 服 务 器 ， 它 负责 解码 
HTTP 请 求 并 传递 给 一 个 或 多 个 围棋 机 器 人 代理 。 在 浏览 器 中 ， 基于 jgoboard 库 的 客户 端 通 过 
HTTP 与 服务 器 通信 















































如 果 观 察 httpfrontend 模 块 的 结构 ， 就 会 发 现 一 个 名 为 server.py 的 文 
件 ， 它 有 一 个 独立 的 、 文 档 完备 的 方法 get_web_app， 可 以 调用 它 并 得 
到 需要 运行 的 web 应 用 。 代 码 清单 8-7 中 的 示例 展示 了 如 何 使 
用 get_web_app 加 载 随 机 机 器 人 并 开局 网 络 服务 。 























代码 清单 8-7 ”注册 一 个 随机 代理 并 用 它 启动 一 个 web 应 用 


from dlgo.agent.naive import RandomBot 
from dlgo.httpfrontend.server import get web app 


random agent = RandomBot() 
web app = get web app({'random': random agent}) 
web_app.run() 





运行 这 个 示例 程序 ， 将 在 localhost (127.0.0.1) 上 启动 一 个 Web 服 
务 ， 监 听 端 口 5000， 这 也 是 Flask 应 用 所 使 用 的 默认 端口 。 刚 刚 命 名 
为 random 的 RandomBot 随 机 机 器 人 响应 静态 文件 夹 httpfrontend 中 的 
HTML 文 件 play_random_99.html1。 这 个 页 面 会 演 染 一 个 围棋 棋盘 ， 并 定 


义 人 机 对 歼 的 规则 。 人 类 棋 手 执 黑 子 ， 机 器 人 执 日 子 。 每 当 人 类 棋 手 落 
子 时 ， 会 触发 route/select-move/random 来 接收 机 器 人 的 下 一 步 动作 。 当 
机 器 人 的 动作 被 接收 后 ， 就 会 被 执行 到 棋盘 上 ， 接 着 又 回 到 人 类 棋 手 的 
回合 。 要 与 这 个 机 器 人 进行 对 奔 ， 可 以 在 浏览 器 中 访问 
http://127.0.0.1:5000/static/play_random_99.html。 这 时 候 应 该 能 够 看 到 一 
个 可 以 运行 的 示例 ， 如 图 8-2 所 示 。 





Engine: random bot (chapter 3) 
new game 


ABCDEFGH IJ 


一 mo NO® oo 





一 Dam Nm ovo 


ABCDEFGH IJ 


图 8-2 ”运行 一 个 Python 的 Web 应 用 ， 在 浏览 器 中 与 围棋 机 器 人 对 奔 





在 后 面 的 章节 中 ， 我 们 还 会 添加 更 多 的 机 器 人 ， 但 是 现在 注意 ， 
play_predict_19.html 文 件 里 还 有 另 一 个 前 端 。 这 个 Web 前 端 与 一 个 名 为 
predict 的 机 器 人 人 对话， 可 以 用 来 进行 19x19 棋 盘 的 对 一 。 因 此 ， 如 果 我 
们 用 Keras 神 经 网 络 模 型 训练 围棋 数据 ， 使 用 一 个 围棋 棋盘 编码 器 实例 
encoder， 可 以 先 创 建 一 个 代理 的 实例 agent = De 
epLearningAgent(model，encoder)， 然 后 将 它 注册 到 一 个 Web 应 用 
中 一 web_app = get web app({'predict': agent})， 之 后 就 可 
以 调用 web_ app.run() 局 动 它 了 。 


闹 到 问 围 横 机 右 人 示例 








图 8-3 显 示 了 一 个 复 盖 整个 流程 的 端 到 端 示 例 〈 与 我 们 在 第 7 草 开 头 
所 介绍 的 流程 相同 ) 。 我 们 从 必要 的 导入 开始 ， 然 后 用 一 个 编码 器 和 一 
个 围棋 数据 处 理 器 将 围棋 数据 加 载 为 特征 x 和 标签 y， 如 代码 清早 8-8 所 
未。 





代码 清单 8-8 用 数据 处 理 器 从 围棋 数据 中 加 载 特征 与 标签 














import h5py 


from keras.models import Sequential 
from keras.layers import Dense 


from dlgo.agent.predict import DeepLearningAgent, load prediction agent 
from dlgo.data.parallel processor import GoDataProcessor 

from dlgo.encoders.sevenplane import SevenPlaneEncoder 

from dlgo.httpfrontend import get web app 

from dlgo.networks import large 


g0_board rows, go_ board cols = 19, 19 

nb_classes = go board rows * go board cols 

encoder = SevenplaneEncoder((go_ board rows, go_board cols)) 
processor = GoDataProcessor(encoder=encoder .name() ) 





X, y = processor.load go_data(num_samples=166) 


@@ 可 以 从 很 多 流行 的 围 ”@@ 构建 一 个 图 形 @@ 每 一 回合 人 类 棋 手 @@ 神经 网 络 预测 出 
棋 服务 器 〈 如 KGS) 界面 ， 以 便 进 落 子 之 后 ， 把 当前 回应 动作 ， 并 发 

上 下 载 围棋 棋谱 。 行人 机 对 弈 。 的 游戏 状态 数据 发 送 回 HTTP 前 端 ， 
送 到 服务 器 ， 服 务 在 棋盘 上 落 子 。 


器 会 把 它 输 送 到 深 
度 神经 网 络 中 。 
其: 通常 
© 国 模 数据 通常 采用 





z1=0(W!ex) y=0(W?z!) 


下 载 棋谱 ABCDE 


全 读 取 SGF 文 件 后 ， 
需要 对 其 进行 处 








理 ， 以 提取 围棋 
J 游戏 状态 信息 。 
处 理 棋谱 @ 接 下 来 , 用 一 。 @ 接着 用 这 些 更 强大 的 ,ee 之 后 ， 把 训练 
个 更 精细 的 编 。 。 数据 来 训练 一 个 用 于 是 人 用 训 红 呈 。“。 好 的 阅 络 集成 
码 器 将 游戏 状 动作 预测 的 深度 神经 ”居中 中 玫 信人 。 到 庙 到 并 围棋 
态 转换 为 机 器 网 络 。 机 器 人 。 


可 读 的 形式 。 S 
A B C D E z!= ao(W'x) y=0(W?z!) 











5 5 0 0 0 00 
a | 对 棋盘 数据 。 | 。 ， ， | 0 | 使 用 数据 
4 4 ”进行 编码 训练 网 络 
名 0-1 1-10 
0-l 1-1 0 
后 0 0 0 0 0 
1 





mm 





图 8-3 ”深度 学 习 围棋 机 器 人 的 训练 过 程 





特征 和 标签 准备 好 之 后 ， 就 可 以 创建 一 个 深度 卷 积 神经 网 络 ， 并 用 
这 些 数据 进行 训练 了 。 这 一 次 我 们 选择 dlgo.networks 模 块 中 的 大 型 网 
络 ， 并 选用 Adadelta 作 为 优化 右 ， 如 代码 清单 8-9 所 示 。 











代码 清单 8-9 用 Adadelta 构 建 并 运行 一 个 大 型 围棋 动作 预测 模型 





input_shape = (encoder.num planes, go_ board rows, go_board cols) 
model = Sequential() 
network_layers = large.layers(input _shape) 
for layer in network_ layers: 
model.add(layer) 


model.add(Dense(nb classes, activation="'softmax')) 
model.compile(loss='categorical crossentropy', optimizer='adadelta' 
metrics=['accuracy' ]) 


model.fit(X, y, batch size=128, epochs=260, verbose=1) 





模型 完成 训练 后 ， 可 以 用 它 创 建 一 个 围棋 机 器 人 ， 并 保存 为 HDF5 
格式 ， 如 代码 清单 8-10 所 示 。 


代码 清单 8-10 创建 并 持久 化 一 个 DeepLearningAgent 





deep_learning bot = DeepLearningAgent(model, encoder) 





deep learning bot.serialize("../agents/deep bot.h5") 


最 后 ， 从 文件 中 加 载 机 器 人 ， 并 把 它 提 供给 Web 应 用 。 如 代码 清单 
8-11 所 示 。 





























代码 清单 8-11 将 机 器 人 加 载 入 内 存 ， 并 在 Web 应 用 中 展示 


model file = h5py.File("../agents/deep bot.h5", "r") 
bot_ from file = load prediction agent(model file) 


web app = get web app({'predict': bot from file}) 
web_app.run() 





当然 ， 如 果 之 前 已 经 训练 好 了 一 个 强大 的 机 器 人 ， 那 么 除 最 后 一 步 
之 外 都 可 以 跳 过 。 例 如 ， 我 们 可 以 加 载 第 7 章 中 存储 在 检查 点 中 的 某 个 
模型 ， 并 相应 地 更 改 model_file， 查 看 它们 在 实际 对 弈 中 作为 棋 手 如 何 


运行 。 








8.3 ”在 云 问 训练 与 部 晋 围 棋 机 器 人 


本 书 到 现在 为 止 ， 所 有 的 开发 都 是 在 本 地 计算 机 上 进行 的 。 如 果 条 
件 较 好 ， 计 算 机 上 配备 了 较 新 的 GPU， 那 么 训练 第 5 章 至 第 7 章 中 开发 的 
深度 神经 网 络 并 不 是 问题 。 但 如 果 没 有 配备 足够 强大 的 GPU， 或 者 无 法 
让 它 腾 出 足够 的 计算 时 间 ， 那 么 在 云端 租用 GPU 的 计算 时 间 往往 是 一 





个 不 错 的 选择 。 


如 果 暂 时 不 考虑 训练 过 程 ， 并 假设 已 经 拥有 一 个 强大 的 机 器 人 ， 那 
么 借助 云 服 务 商 来 托管 机 器 人 并 提供 服务 也 是 一 个 不 错 的 选择 。 我 们 在 
8.2 贡 中 用 本 地 托管 的 web 应 用 运行 过 一 个 机 器 人 。 但 如 果 我 们 想 要 回 朋 
友 分 至 机 器 人 ， 或 者 让 它 服务 于 公众 ， 这 样 的 设置 就 并 不 理想 了 。 这 要 
求 我 们 既 要 确保 计算 机 日 夜 不 停 地 运行 ， 又 得 想 办 法 避免 个 人 计算 机 梭 
露 于 公众 访问 之 下 。 但 知 在 云端 托管 机 医 人 ， 吕 可 以 将 开发 和 部 普 分 离 
开 来 ， 并 通过 简单 地 分 享 一 个 URL 让 任何 感 兴趣 的 人 都 可 以 与 机 器 人 展 
开 对 底 。 








这 是 个 很 重要 的 话题 ， 但 它 内 容 特 殊 ， 并 且 与 机 占 学 习 没 有 和 直接 关 
联 ， 所 以 我 们 将 这 部 分 内 容 放 在 附录 D。 在 附录 DD 中 读者 将 了 解 如 何 学 
会 使 用 一 个 特定 的 云 服务 提供 商 : AWS。 本 书 的 附录 中 会 介绍 以 下 技 


后 已 
有 Be: 





。 创建 AWS 账 户 ; 

。 灵活 地 设置 、 运 行 和 终止 虚拟 服务 器 实例 ; 

。 用 合理 的 成 本 在 云 GPU 上 创建 一 个 适合 深度 学 习 模 型 训练 的 AWS 
实例 ; 

。 将 围棋 机 器 人 部 署 到 一 个 几乎 免费 的 HTTP 服 务 器 上 。 





除了 这 几 个 有 用 的 技能 ， 附 录 D 也 是 部 普 一 个 完整 的 、 可 以 与 在 线 
围棋 服务 器 相连 的 围棋 机 器 人 的 先决 条 件 。 我 们 将 在 后 面 的 8.6 市 中 讨 


论 这 个 话题 。 


8.4 与 其 他 机 器 人 对 话 : 围棋 文本 协议 


8.2 节 介绍 了 如 何 将 机 器 人 框 以 集成 到 一 个 Web 前端 。 为 了 做 到 这 一 
点 ， 我 们 使 用 超 文 本 传输 协议 (HTTP) 来 处 理 机 器 人 与 人 类 棋 手 之 间 
的 通信 ， 而 HITP 是 Web 技术 的 核心 协议 之 一 。 为 了 避免 读者 分 心 ， 我 
们 特意 省 略 了 所 有 的 细节 ， 而 有 一 个 标准 化 的 协议 是 实现 这 一 目标 的 必 
要 条 件 。 人 类 和 机 器 人 缺乏 交流 于 棋 动 作 的 共同 语言 ， 但 协议 可 以 充当 


这 个 桥梁 。 











围棋 文本 协议 (Go Text Protocol，GTP) 是 世界 各 地 的 围棋 服务 器 
用 来 连接 平台 上 人 机 交互 的 事实 标准 协议 。 许 多 离线 围棋 软件 也 基于 
GTP。 本 市 通过 示例 介绍 GTP， 我 们 将 用 Python 实 现 该 协议 的 一 部 分 ， 
并 利用 这 个 实现 让 机 器 人 与 其 他 围棋 程序 进行 对 奔 。 


在 附录 C 中 ， 我 们 将 介绍 如 何 安装 GNU Go 和 Pachi 这 两 个 通用 的 围 
棋 程 序 。 它 们 几乎 适用 于 所 有 的 操作 系统 。 我 们 建议 把 这 两 个 程序 都 装 
上 ， 所 以 请 确保 这 两 个 程序 都 在 系统 上 安装 好 了 。 不 需要 任何 前 端 ， 而 
只 需要 简单 的 命令 行 工 具 。 如 果 已 经 安装 了 GNU Go， 可 以 通过 运行 下 
面 的 GTP 模 式 来 启动 它 : 


gnugo --mode gtp 


我 们 可 以 在 这 个 模式 下 探索 GTP 是 如 何 工 作 的 。GTP 是 一 种 基于 文 
本 的 协议 ， 因 此 我 们 可 以 直接 在 终端 键入 命令 并 按 Enter 键 。 例 如 ， 要 设 
置 一 个 9x9 的 棋盘 ， 可 以 键入 boardsize 9。GNU Go 将 会 返回 一 个 响 








应 ， 并 确认 命令 已 正确 执行 。 每 个 成 功 的 GTP 命 令 都 会 触发 一 个 以 符号 
= 开头 的 响应 ， 而 失败 的 命令 则 会 得 到 ?开头 的 响应 。 要 检查 当前 的 棋盘 
状态 ， 可 以 发 出 命令 showboard， 和 预想 一 样 ， 它 将 会 打印 出 一 个 空 的 
9x9 棋 盘 。 


在 实际 棋局 中 最 为 重要 的 命令 有 两 个 : genmove 和 play。 第 一 个 命 
令 genmove 用 于 向 GTP 机 器 人 发 出 生成 下 一 手 落 子 动作 的 请 求 。GTP 机 
器 人 通常 也 会 在 内 部 将 这 个 动作 执行 到 它 自 身 维护 的 游戏 状态 中 。 这 两 
个 命令 都 需要 一 个 参数 表示 玩家 执 子 的 颜色 : 黑子 或 白 子 。 例 如 ， 要 生 
成 一 个 白 方 落 子 动作 并 应 用 到 GNU Go 的 棋盘 上 ， 可 以 键入 genmove 
white。 这 会 触发 一 个 响应 ， 如 = C4， 表 示 GNU Go 接受 这 个 命令 
(=) ， 并 在 C4 处 落下 一 颗 白 子 。GTP 支 持 的 棋盘 坐标 与 第 2 章 和 第 3 章 
中 介绍 的 相同 。 








另 一 个 与 围棋 玩法 相关 的 命令 是 play。 这 个 命令 会 通知 GTP 机 器 人 
在 棋盘 上 走 一 步 棋 。 例 如 ， 可 以 告诉 GNU Go 我 们 希望 它 发 出 play 
black D4 来 在 D4 上 落下 黑子 ， 而 它 将 会 返回 一 个 = 来 确认 这 个 命令 。 当 
两 个 机 器 人 进行 对 奔 时 ， 它 们 会 轮流 要 求 对 方 genmove 下 一 个 动作 ， 然 
后 在 自己 的 棋盘 上 play 它 接收 到 的 啊 应 动作 。 这 个 流程 很 直观 ， 但 其 实 
我 们 省 略 了 很 多 细节 。 一 个 完整 的 GTP 客 户 机 还 需要 处 理 很 多 其 他 的 命 
令 ， 例 如 让 子 、 管 理 时 间 设 置 和 计数 规则 等 。 如 果 对 GTP 的 细节 有 兴 
趣 ， 读 者 可 以 参看 GNU Go 的 相关 文档 。 简 而 言 之 ， 基 本 的 genmove 和 
play 命 令 已 经 足 够 让 我 们 的 深度 学 习 机 器 人 与 GNU Go 和 Pachi 对 战 了 。 





我 们 可 以 在 dlgo 模 块 中 创建 一 个 名 为 gp 的 子 模块 来 处 理 GTP， 并 封 
装 我 们 的 Agent 概 念 ， 以 便 它 可 以 用 这 个 协议 来 交换 围棋 动作 。 读 者 可 
以 答 试 继续 丰富 前 面 章 节 中 的 实现 代码 ， 但 是 从 本 章 开 始 ， 建 议 读者 直 
接 采 用 我 们 在 GitHub 上 的 实现 ， 代 码 目录 是 dlgo/gtp。 


首先 ， 让 我 们 正式 定义 GTP 命 令 ， 如 代码 清单 8-12 所 示 。 在 许多 围 
棋 服 务 器 上 ， 每 个 命令 都 会 被 分 配 一 个 序列 号 ， 以 确保 命令 能 够 与 响应 
正确 地 匹配 。 这 个 序列 号 是 可 选 的 ， 也 可 以 是 None。 对 我 们 来 襄 ，GTP 
命令 由 序列 号 、 命 令 名 称 和 命令 的 多 个 参数 组 成 。 我 们 可 以 将 这 个 定义 
放 在 gtp 模 块 中 的 command.py 文 件 中 。 








代码 清单 8-12 ”GTP 命 令 的 Python 实现 





class Command : 


def _ init (self, sequence, name, args): 
self.sequence = sequence 
self.name = name 
self.args = tuple(args) 


def eq (self, other): 
return self.sequence == other.sequence and \ 
self.name == other.name and \ 
self.args == other.args 


def _repr_ (self): 


return 'Command(%r, %r, %r)' % (self.sequence, self.name, self.arg 


def _str (self): 
return repr(self) 





接 下 来 要 将 命令 行 中 的 文本 输入 解析 为 一 个 Command 实 例 。 例 
如 ，999 play white D4 解析 之 后 应 当 得 到 Command(999，'play'， 


('white'，'D4' ))。 实 现 这 个 功能 的 函数 parse 如 代码 清单 8-13 所 
示 ， 也 放 在 command.py 文 件 中 。 








代码 清单 8-13 ”从 纯 文 本 中 解析 GTP 命 令 





def parse(command_string) : 
pieces = Command_string.split() 
try: 
sequence = int(pieces[6]) <--- ”GTP 命令 的 第 一 个 参数 是 可 选 的 序列 号 
pieces = pieces[1:] 














except ValueError: <--- ”如 果 文 本 的 开头 部 分 不 是 数字 ， 则 表示 这 个 命令 没有 
序列 号 
sequence = None 
name, args = pieces[6]，pieces[1:] 
return Command(sequence, name, args) 





我 们 刚刚 已 经 说 过 ，GTP 坐 标 是 用 标准 符号 表示 的 ， 因 此 将 GTP 坐 
标 解 析 为 Board 棋 盘 坐 标的 过 程 和 逆 过 程 都 相对 简单 。 我 们 可 以 在 gtp 模 
块 的 board.py 文 件 中 定义 两 个 辅助 函数 ， 用 于 在 坐标 和 棋盘 位 置 之 间 进 
行 转换 ， 如 代码 清单 8-14 所 示 。 








代码 清单 8-14 ”在 GTP 坐 标 和 内 部 Point 类 型 之 间 相 互 转换 











from dlgo.gotypes import Point 
from dlgo.goboard fast import Move 


def coords to gtp position(move): 
point = move.point 
return COLS[point.col - 1] + str(point.row) 


def gtp position to coords(gtp_position): 
col_ str, row str = gtp position[8], gtp_position[1:] 
point = Point(int(row str), COLS.find(col str.upper()) + 1) 
return Move(point) 





8.5 ”在 本 地 与 其 他 机 右 人 对 办 





现在 我 们 已 经 对 GTP 的 基础 知识 有 所 了 解 ， 接 下 来 可 以 直接 开始 应 
用 的 构建 工作 了 。 我 们 需要 一 个 程序 来 加 载 机 器 人 ， 并 让 它 与 GNU Go 
或 Pachi 进 行 对 弈 。 不 过 在 这 之 前 ， 我 们 需要 先 解雇 一 个 技术 问题 ， 即 
机 器 人 应 该 何 时 跳 过 回合 或 认输 的 问题 。 


8.5.1 机 大 人 应 该 何 时 跳 过 回合 或 认输 


开发 至 今 ， 深 上 度 学 习 机 占 人 还 没 办 法 得 知 终止 棋局 的 时 机 。 按 照 目 
前 的 设计 方式 ， 机 器 人 总 是 会 选择 当前 最 佳 的 动作 来 回应 ， 但 这 对 比赛 
的 终结 并 无 益处 ， 尤 其 在 己方 局 势 糟糕 的 时 候 。 这 时 候选 择 路 过 回合 其 
至 直接 认输 可 能 是 更 好 的 选择 。 因 此 我 们 需要 添加 一 个 终 副 集 略 : 它 能 
够 显 式 地 告诉 机 器 人 终止 棋局 的 时 机 。 在 第 13 章 和 第 14 草 ， 我 们 将 引入 
更 强大 的 学 习 技术 ， 届 时 这 个 策略 束 不 再 显得 那么 有 用 了 因为 那 时候 
机 器 人 将 能 够 通过 学 习 来 判断 当前 的 棋局 状态 ， 并 学 会 判断 什么 时 候 了 最 
适合 终止 棋局 ) 。 但 就 目前 而 言 ， 这 个 终 熏 策略 的 概念 还 是 很 有 用 的 ， 
它 能 在 部 署 机 器 人 与 其 他 对 手 苋 搜 的 过 程 中 发 挥 作用 。 




















我 们 可 以 在 dlgo 模 块 下 的 agent 子 模块 中 建立 一 个 名 为 termination.py 
的 文件 ， 并 填写 代码 清单 8-15 中 的 TerminationStrategy 类 。 这 个 类 
的 任务 是 决定 什么 时 候 采 取 跳 过 回合 或 者 认输 的 动作 一 一 因为 在 默认 情 
况 下 ， 机 器 人 永远 不 会 跳 过 回合 或 认输 。 








代码 清单 8-15 ” 终 盘 策略 告诉 机 器 人 何 时 该 终止 棋局 


from dlgo import goboard 
from dlgo.agent.base import Agent 





from dlgo import scoring 
class Terminationstrategy : 


def _ init (self): 
pass 


def should pass(self, game_state): 
return False 


def should resign(self, game_ state): 
return False 





我 们 可 以 用 一 个 简单 的 局 发 式 规则 来 判断 终止 棋局 的 时 机 : 当 对 方 
跳 过 回合 时 ， 我 们 也 跳 过 回合 “如 代码 清单 8-16 所 示 ) 。 这 个 方法 依赖 
于 对 方 知道 该 何 时 跳 过 回合 ， 但 作为 首次 尝试 也 是 个 不 错 的 选择 。 并 且 
在 与 GNU Go 和 Pachi 对 歼 时 ， 这 个 规则 非常 适用 。 




















代码 清单 8-16 ” 当 对 方 跳 过 回合 时 ， 己 方 也 跳 过 回合 

















class PassWhenOpponentPpasses(TerminationStrategy): 


def should pass(self, game_ state): 
if game_ state.last move is not None : 
return True if game_state.1last_move.is pass else False 


def get(termination): 
if termination == 'opponent passes': 
return PassWhenOpponentPasses() 
else: 


raise ValueError("Unsupported termination strategy: {}" 
.format(termination)) 








在 termination.py 文 件 里 ， 读 者 还 会 发 现 男 一 个 称 
为 ResignLargeMargin 的 策略 。 当 对 方 的 比赛 评估 分 数 过 高 时 ， 这 个 
策略 会 选择 认输 。 我 们 还 可 以 想 出 许多 类 似 的 策略 ， 但 请 记 住 ， 最 终 都 
可 以 通过 机 器 学 习 来 摆脱 对 这 些 策略 的 依赖 。 





最 后 ， 要 让 机 器 人 能 够 进行 相互 对 弈 ， 还 需要 给 Agent 实 例 配 备 一 
个 TerminationSstrategy 实 例 ， 以 便 在 适当 的 时 候选 择 跳 过 或 认输 来 
终止 棋局 ， 如 代码 清单 8-17 所 示 。 这 个 TerminationAgent 类 也 放 进 


termination.py 文 件 。 





























代码 清单 8-17 将 代理 类 和 终 盘 策略 封装 起 来 




















class TerminationAgent(Agent ) : 


def _ init (self, agent, strategy=None): 
Agent. init (self) 
self.agent = agent 
self.strategy = strategy if strategy is not None \ 
else TerminationStrategy() 


select move(self, game_ state): 

if self.strategy.should pass(game state): 
return goboard.Move.pass_ turn() 

elif self.strategy.should resign(game_ state): 
return goboard.Move.resign() 

else: 
return self.agent.select move(game_ state) 





8.5.2 让 机 器 人 与 其 他 围棋 程序 进行 对 弈 


完成 了 终 盘 策略 的 讨论 之 后 ， 现 在 可 以 让 围棋 机 器 人 与 其 他 程序 进 
行 比赛 了 。 在 gtp 模 块 的 play_local.py 文 件 里 可 以 找到 一 个 脚本 ， 它 能 够 
a Go 或 Pachi 之 间 开 启 一 局 对 列 。 接 下 来 我 们 从 必要 的 导 
入 语句 开始 ， 一 步 一 步 地 完成 这 个 脚本 ， 如 代码 清单 8-18 所 示 。 

















代码 清单 8-18 ”本 地 机 器 人 运行 器 的 导入 语句 


import subprocess 
import re 




















import h5py 


from dlgo.agent.predict import load prediction agent 

from dlgo.agent.termination import PassWhenOpponentPasses, TerminationAgen 
t 

from dlgo.goboard fast import GameState, Move 

from dlgo.gotypes import Player 

from dlgo.gtp.board import gtp_ position to coords, coords to gtp position 
from dlgo.gtp.utils import SGFWriter 

from dlgo.utils import print board 

from dlgo.scoring import compute game result 





上 面 的 导入 语句 中 ， 除 SGFWriter 之 外 ， 其 他 读者 应 当 都 很 就 
悉 。SGFWriter 是 dlgo.gtp.utils 模 块 中 的 一 个 工具 类 ， 它 可 以 跟踪 棋局 
的 进度 ， 并 在 棋局 结束 后 写 入 SGF 文 件 。 





要 初始 化 游戏 运行 器 LocalGtpBot， 需 要 为 它 提 供 一 个 深度 学 习 代 
理 和 一 个 终 盘 集 略 。 此 外 ， 还 可 以 指定 让 子 数目 以 及 对 歼 的 对 手 。 对 获 
对 手 可 以 选择 gnugo 或 pachi。LocalGtpBot 将 我 们 选择 的 对 手 程 序 作 
为 子 进程 局 动 ， 之 后 机 占 人 与 对 手 程 序 之 间 将 通过 GTP 进 行 通信 ， 如 代 
码 清单 8-19 所 示 。 


代码 清单 8-19 ”启动 一 个 运行 器 ， 开 局 两 个 机 器 人 之 间 的 对 认 








class LocalGtpBot: 


def _ init (self, go _ bot, termination=None, handicap=0, 
opponent="'gnugo', output sgf="out.sgf", 
our_color='b ') : 
self.bot = TerminationAgent(go_bot，termination) <--- 用 一 个 代 
理 实例 和 一 个 终 盘 策略 来 初始 化 机 器 人 实例 


self.handicap = handicap 






































self._stopped = False <--- 棋局 启动 后 会 一 直 进 行 下 去 ， 直 到 有 一 方 终 
止 棋 局 才 结 束 

self.game_ state = GameState.new game(19) 

self.sgf = SGFWriter(output_ sgf) <--- 棋局 结束 之 后 ， 将 整 盘 棋 谱 存 








储 到 指定 的 SGF 格 式 文件 中 


self.our_color = Player.black if our color == 'b' else Player.whit 


e 
self.their color = self.our color.other 
cmd = self.opponent cmd(opponent) <--- ”对 手 在 GNU Go 或 Pachi 两 者 
间 选 择 一 个 
pipe = Subprocess .PIPE 
self.gtp_stream = subprocess.Popen( 
cmd, stdin=pipe, stdout=pipe <--- 可 以 在 命令 行 中 读 取 或 写 入 GT 
P 命 令 
) 
@staticmethod 
def opponent cmd(opponent): 
if opponent == 'gnugo': 
return ["gnugo", "--mode", "gtp"] 
elif opponent == "pachi': 
return ["pachi"] 
else: 


raise ValueError("Unknown bot name {}".format(opponent)) 





这 个 工具 所 使 用 的 一 个 主要 方法 是 command_and_response， 它 负 
责 发 送 一 个 GTP 命 令 ， 并 读 取 命 令 的 啊 应 ， 如 代码 清单 8-20 所 示 。 











代码 清单 8-20 ”发 送 GTP 命 令 并 接收 响应 

















def send command(self, cmd): 
self.gtp_ stream.stdin.write(cmd.encode('utf-8')) 


def get response(self): 
succeeded = False 
result = "" 
while not succeeded: 
line = self.gtp_stream.stdout.readline() 
if line[6] == '=": 
succeeded = True 
line = line.strip() 
result = re.sub('^= ?",， 
return result 


，1line) 


command_and response(self, cmd): 
self.send command(cmd) 
return self.get response() 





进行 一 局 对 府 的 工作 流程 如 下 (具体 实现 代码 如 代码 清单 8-21 所 


示 ) 。 








(1) 使 用 GTP 命 令 boardsize 来 指定 棋盘 的 尺寸 。 由 于 我 们 的 深 
度 学 习 机 器 人 只 能 适 配 19x19 的 棋盘 ， 因 此 在 这 里 我 们 只 允许 这 个 尺寸 
的 棋盘 。 


(2) 调用 set_handicap 方 法 设置 合适 的 让 子 数目 。 





(3) 调用 play 方 法 局 动 一 局 对 穿 。 


(4) 将 棋谱 保存 为 SGF 文 件 。 











代码 清单 8-21 设置 棋盘 ， 启 动 棋局 ， 让 双方 进行 对 驿 ， 并 持久 化 存储 棋谱 记录 











def run(self): 
self.command and_response("boardsize 19\n") 
self.set handicap() 
self.play() 
self.sgf.write sgf() 


set handicap(self): 

if self.handicap == 
self.command and response("komi 7.5\n") 
self.sgf.append("KM[7.5]\n") 


else: 
stones = self.command and response("fixed handicap 
{}\n".format(self.handicap)) 
sgf_handicap = "HA[{}]AB".format(self.handicap) 
for pos in stones.split(" "): 
move = gtp_position to coords(pos) 
self.game_ state = self.game_ state.apply_move(move) 
sgf_handicap = sgf handicap + "[" + 
self.sgf.coordinates(move) + "]" 
self.sgf.append(sgf_ handicap + "\n") 





对 研 的 游戏 馆 辑 很 简单 : 只 要 双方 没有 提出 终止 ， 就 让 他 们 轮流 执 
行 落 子 动作 〈 如 代码 清单 8-22 所 示 ) 。 双 方 的 机 器 人 分 别 使 
用 play_our_move 和 play_ their _move 方 法 来 执行 它们 的 动作 。 我 们 
还 需要 及 时 清除 命令 行 ， 并 输出 当前 棋局 状态 和 粗略 的 估计 结 采 。 











代码 清单 8-22” 当 一 方 发 出 终止 棋局 的 信号 时 ， 横 局 就 结束 了 








def play(self): 
while not self. stopped: 
if self.game_ state.next player == self.our_ color: 
self.play_our_move() 
else: 


self.play_ their move() 
print(chr(27) + "[2I"] 
print board(self.game_ state.board) 
print("Estimated result: ") 
print(compute game result(self.game state)) 





要 让 机 器 人 下 一 步 棋 ， 首 移 得 同 它 发 出 请 求 ， 要 求 它 调 
用 select_move 来 生成 一 手 落 子 动作 ， 再 将 这 个 动作 应 用 到 棋盘 上 ， 接 
着 将 这 个 动作 翻译 成 GTP 格 式 ， 再 发 送 给 对 方 ， 如 代码 清单 8-23 所 示 。 
另外 ， 还 需要 对 跳 过 回合 和 认输 动作 进行 特别 的 处 理 。 

















代码 清单 8-23 ”向 机 器 人 发 出 请 求生 成 一 手 落 子 动作 ， 并 翻译 为 GTP 格 式 
































def play_our_move(self) : 
move = Self.bot.select_move(self.game_state) 
self.game_state = self.game state.apply_move(move) 


our_name = self.our color.name 
our_letter = our_name[6].upper() 
sgf move = "" 
if move.is pass: 

self.command_and response("play {} pass\n".format(our_name)) 
elif move.is resign: 

self.command_and response("play {} resign\n".format(our_name)) 
else: 


pos = coords to gtp position(move) 
self.command_and response("play {} {}\n".format(our name, pos) 


sgf_ move = self.sgf.coordinates(move) 
self.sgf.append(";{}[{}]\n".format(our letter, sgf_move)) 





而 要 让 对 方 下 一 步 棋 ， 其 流程 结构 与 己方 下 一 步 棋 是 类 似 的 。 首 移 
要 求 GNU Go 或 Pachi 通 过 genmove 来 生成 一 步 动作 ， 然 后 解析 它 返 回 的 
GTP 响 应 ， 并 转换 为 一 个 我 们 的 机 器 人 能 理解 的 动作 ， 如 代码 清单 8-24 
所 示 。 最 后 ， 还 需要 在 对 方 认 输 或 双方 都 跳 过 回合 的 时 候 终 止 棋 局 。 

















代码 清单 8-24 ”通过 genmove 获 取 对 方 的 落 子 动作 并 执行 























def play_their move(self): 
their name = self.their color.name 
their letter = their name[06].upper() 


pos = self.command _ and_response("genmove {}\n".format(their_ name)) 
if pos.lower() == 'resign': 
self.game state = self.game_ state.apply_move(Move.resign()) 
self. stopped = True 
elif pos.lower() == 'pass': 


self.game state = self.game_ state.apply move(Move.pass turn()) 
self.sgf.append(";{}[]\n".format(their letter)) 
if self.game_ state.last move.is pass: 

self. stopped = True 


else: 
move = gtp_position to coords(pos) 
self.game_ state = self.game_ state.apply_move(move) 
self.sgf.append(";{}[{}]\n".format(their letter, 
= self.sgf.coordinates(move))) 





这 样 整个 play_local.py 的 实现 就 完成 了 。 用 代码 清单 8-25 中 的 代码 
来 测试 它 。 














代码 清单 8-25 ”让 机 器 人 与 Pachi 进 行 对 奔 


from dlgo.gtp.play_local import LocalGtpBot 
from dlgo.agent.termination import PassWhenOpponentPasses 














from dlgo.agent.predict import load prediction agent 
import h5py 


bot = load prediction agent(h5py.File("../agents/betago.hdf5", "r")) 


gtp_bot = LocalGtpBot(go_ bot=bot, termination=PassWhenOpponentPasses(), 
handicap=06,，opponent='pachi') 


gtp_bot.run() 








图 8-4 展 示 了 两 个 机 右 人 对 询 的 情形 。 


19 人 i a 
18 让 了 >” 四 
17 oO x 让 ee” 加、 转注 
16 0o 0x 0 a WO a Oi 
Eb %， 避 尖 第 名 卉 名 
:5 Ee 首 
13 人 中 和 
也 GO- X 多 .这 全 
入 和 沪 计 洲 号 y 屠 依 
10 放 “省 ， 训 厢 
Vi 有 和 ww 
8 wa WB、 各 ,| 诅 滨 
i 各 区 OO ，，。 . 0 0 X 
6 . 入 所 天 -人 证 0 .0 
Ss 洲 注 这 久 亿 E DO .0 
4 失 二 -和 本 . 闪避 条 
3 诡 人 Xx .于 
人 0 5 人 
ABCDE FGHI KLMNO PQRST 
Estimated result: 
Wr3.5 
IN: genmove white 
Move: 85 Komi: 7.5 Handicap: 8 Captures B: 4 W: 2 
ABCDEFGHJKLMNOPQRST ABCDEFGHJKLMNOPQRST 
4 + 4 + 
和 | 
+ OX. 8 | x 0 O00 x RE]} 
人 OX. | 
6 OX. 161000X 0i00 sass XxXxx| 
上坟 本 KY | 
4 二 9 
1 13. 1 0K! 
下 Hp | 
ph I 
10 1 0 lg OO ODS 让座 本 攻 人 人 I 
91 ON Xs 人 
全 人 xX.X | 
本 i 0 Tn De O01 
时 下 所 1 太 | 1 这 61,,，,，,，XxXX0O0Xo000000000,|1 
5 1 人 Or 0 5|IxxXXXXXXX,o000,,0o000| 
4 OO Os XOXsl aIXXXNX XXXO os SEO ms] 
31,.X0 人 SIXX XX XN O00 ml 
六 于 
二 BN WRN RN Os ss | 
4 + = 十 





图 8-4 Pachi 和 机 器 人 在 棋局 中 如 何 检视 棋局 与 评估 棋局 的 一 个 快照 





从 图 8-4 上 方 可 以 看 到 输出 的 棋盘 ， 接 着 十 当前 的 估计 评分 。 从 图 8- 
4 下 方 左 侧 可 以 看 到 Pachi 的 游 戏 状态 《〈 与 己方 机 器 人 的 棋局 游戏 状态 相 


同 ) ， 图 8-4 下 方 右 侧 则 展示 了 Pachi 输 出 它 所 评估 的 双方 各 自 占领 地 盘 
的 情况 。 


这 是 一 个 令 人 信服 和 激动 的 演示 ， 清 晰 地 展现 了 机 占 人 现在 所 达到 
的 程度 。 但 我 们 的 故事 还 远 远 没有 结束 。 在 下 一 节 中 ， 我 们 将 进一步 介 
绍 如 何 将 机 器 人 连接 到 真实 的 在 线 围 棋 服 务 右 上 。 








8.6 ”将 围棋 机 右 人 部 著 到 在 线 围 棋 服务 占 


注意 ，play_local.py 实 际 上 相当 于 一 个 微型 围棋 服务 器 ， 可 供 两 个 
机 器 人 彼此 对 战 。 它 接收 并 发 送 GTP 命 令 ， 并 且 知 道 何 时 开始 或 结束 棋 
局 。 这 样 做 会 产生 额外 开销 ， 因 为 服务 器 程序 还 需要 扮演 控制 对 春 双 方 
如 何 交 互 的 裁判 角色 。 


如 果 想 要 将 机 器 人 连接 到 真实 的 围棋 服务 器 上 ， 那 么 服务 器 会 负责 
全 部 的 游戏 逻辑 ， 这 样 我 们 只 需要 负责 发 送 和 接收 GTP 命 令 即 可 。 一 方 
面 ， 由 于 需要 操心 的 事情 变 少 了 ， 任 务 会 变 得 更 简单 。 但 另 一 方面 ， 要 
连接 到 一 个 正规 的 围棋 服务 器 ， 则 意味 着 必须 确保 我 们 的 程序 文 持 服务 
需 所 文 持 的 全 部 GTP 命 令 ， 否 则 可 能 会 导致 机 融 人 骨 温 。 





为 了 避免 发 生 骨 省 的 情况 ， 我 们 需要 把 GTP 命 令 的 处 理 模块 修改 得 
更 加 正规 。 首 先 需 要 实现 一 个 适当 的 GTP 啊 应 类 来 表达 成 功 或 失败 的 命 
令 啊 应 ， 如 代码 清单 8-26 所 示 。 





代码 清单 8-26 ”对 GTP 响 应 进行 编码 和 序列 化 


class Response: 

















def _ init (self, status, body): 
self.success = status 
self.body = body 














def success(body="'): <--- ”构造 一 个 表示 成 功 的 GTP 响 应 ， 包 含 响应 体 
return Response(status=True, body=body) 
def error(body="' '): <--- 构造 一 个 表示 错误 的 GTP 响 应 
return Response(status=False, body=body) 
def bool response(boolean): <--- 将 Python 的 布尔 值 转换 为 GTP 消 息 
return success('true') if boolean is True else Success( false ' ) 
def serialize(gtp command, gtp_response): <--- ”将 一 个 GTP 消 息 序 列 化 成 一 个 
字符 串 





return '{}{} {}\n\n'.format( 


'=" if gtp_response.success else '?', 


”if gtp_command.sequence is None else str(gtp_command.sequence )， 
gtp_response.body 








这 样 ， 最 后 剩 下 的 一 个 任务 惑 是 实现 本 布 的 主 类 GTPFrontend 了。 
这 个 类 也 放 入 gtp 模 块 中 的 front.py 文 件 中 。 首 先 需要 代码 清单 8-27 所 示 
的 导入 语句 ， 包 插 来 自 gtp 模 块 的 command 和 response。 
































代码 清单 8-27 GTP 前 端的 Python 导 入 语句 











import sys 


from dlgo.gtp import command, response 
from dlgo.gtp.board import gtp_position to coords, coords to gtp position 


from dlgo.goboard fast import GameState, Move 
from dlgo.agent.termination import TerminationAgent 
from dlgo.utils import print board 





要 初始 化 GTP 前 端 ， 需 要 指定 一 个 Agent 代 理 实 例 和 一 个 可 选 的 终 
盘 策 略 。 接 着 GTPFrontend 会 实例 化 一 个 字典 ， 用 来 存放 要 处 理 的 GTP 
事件 ， 如 代码 清单 8-28 所 示 。 这 些 GTP 事 件 ， 包 括 play 等 常见 命令 ,全 


部 都 需要 由 我 们 来 实现 。 


























代码 清单 8-28 初始 化 GTPFrontend， 定 义 GTP 事 件 处 理 器 




















HANDICAP STONES = { 
2: ['D4', 'Q16'], 
: ['D4', 'Q16', 'D16'], 

['D4', 'Q16', 'D16', 'Q4'], 

['D4', 'Q16', 'D16', 'Q4', 'K16'], 

['D4', 'Q16', 'D16', 'Q4', 'D10', 'Q106'], 

['D4', 'Q16', 'D16', 'Q4', 'D10', 'Q10', 'K10'], 

['D4', 'Q16', 'D16', 'Q4', 'D10', 'Q10', 'K4', 'K16'], 

['D4', 'Q16', 'D16', 'Q4', 'D10', 'Q10', 'K4', 'K16', 'K10'], 
} 


class GTPFrontend: 


def _ init (self, termination agent, termination=None): 
self.agent = termination agent 
self.game state = GameState.new game(19) 
self. input = sys.stdin 


self. output = sys.stdout 
self. stopped = False 


self.handlers = { 
'boardsize': self.handle boardsize， 
'clear board': self.handle clear board, 
"fixed handicap': self.handle fixed handicap, 
"genmove ' : self.handle genmove, 
"known_command ' : self.handle_known_command ， 
"komi': self.ignore, 
'showboard': self.handle showboard, 
'time settings': self.ignore, 
'time left': self.ignore, 
'play': self.handle play, 
'protocol version': self.handle protocol version, 
'quit': self.handle quit， 





在 调用 代码 清单 8-29 中 的 run 方 法 开局 棋局 后 ， 程 序 将 不 断 地 读 取 
GTP 命 令 ， 并 将 这 些 命 令 转发 给 相应 的 事件 处 理 器 ， 由 对 应 的 process 
方法 完成 处 理 。 


LY 




















代码 清单 8-29 直到 棋局 终 盘 之 前 ， 前 端 会 不 断 地 从 输入 流 中 解析 命令 











def run(self): 
while not self. stopped : 
input line = self. input.readline().strip() 
cmd = command.parse(input line) 
resp = self.process(cmd) 


self. output.write(response.serialize(cmd, resp)) 
self. output.flush() 


def process(self, cmd): 
handler = self.handlers.get(cmd.name, self.handle_unknown) 
return handler(*cmd.args) 





剩 下 的 任务 是 逐个 完成 GTPFrontend 中 各 个 GTP 命 令 的 处 理 实现 。 
代码 清单 8-30 展 示 了 其 中 最 重要 的 3 个 命令 的 实现 ， 其 他 的 内 容 请 参考 
本 书 的 GitHub 代 码 库 。 








代码 清单 8-30 GTP 前 端 中 最 重要 的 几 个 事件 响应 的 实现 





def handle play(self, color, move): 


if move.lower() == 'pass': 

self.game_ state = self.game_ state.apply move(Move.pass turn()) 
elif move.lower() == 'resign': 

self.game state = self.game_ state.apply move(Move.resign()) 
else: 


self.game_ state = 
self.game_ state.apply move(gtp_position to coords(move)) 
return response.success() 


def handle genmove(self, color): 
move = self.agent.select move(self.game state) 
self.game state = self.game_ state.apply_move(move) 
if move.is pass: 
return response.success('pass') 
if move.is resign: 
return response.success('resign') 
return response.success(coords to gtp position(move)) 


def handle fixed handicap(self, nstones): 
nstones = int(nstones) 
for stone in HANDICAP_STONES[nstones ] : 


self.game_state = self.game_ state.apply_movel( 
gtp_position to_coords(stone) ) 
return response.success() 





现在 可 以 用 一 个 脚本 从 命令 行 启 动 这 个 GTP 前 端 了 ， 如 代码 清单 8- 
31 所 示 。 


代码 清单 8-31 ”从 命令 行 启动 GTP 接 口 








from dlgo.gtp import GTPFrontend 

from dlgo.agent.predict import load prediction agent 
from dlgo.agent import termination 

import h5py 


model file = h5py.File("agents/betago.hdf5", "r") 

agent = load prediction agent(model file) 

strategy = termination.get("opponent passes") 

termination agent = termination.TerminationAgent(agent, strategy) 


frontend = GTPFrontend(termination agent) 
frontend.run() 





在 程序 开始 运行 之 后 ， 它 的 用 法 与 8.4 节 中 测试 GNU Go 的 方式 完全 
相同 : 向 它 发 送 GTP 命 令 ， 它 会 做 出 适当 的 处 理 。 读 者 可 以 尝试 使 
用 genmove 命 令 生成 一 个 落 子 动作 ， 或 用 showboard 命 令 输出 棋盘 。 任 
何在 GTPFrontend 中 做 事件 处 理 器 的 命令 都 可 以 尝试 。 


在 OGS 上 注册 一 个 机 髓 人 





现在 GTP 前 端 实 现 已 经 完成 ， 而 且 它 的 工作 方式 和 本 地 GNU Go 或 
Pachi 相 同 ， 接 下 来 可 以 在 采用 GTP 进 行 通信 的 在 线 平台 上 注册 机 器 人 
了 。 大 多 数 流行 的 围棋 服务 器 都 是 基于 GTP 的 ， 附 录 C 详 细 地 介绍 了 其 
中 3 个 。OGS 是 欧洲 和 北美 洲 最 流行 的 服务 器 之 一 。 我 们 选择 OGS 平 台 








来 展示 如 何 运行 机 器 人 ， 而 其 他 平台 上 的 做 法 也 与 之 类 似 。 


由 于 在 O0GS 上 注册 机 器 人 的 流程 相对 复杂 ， 并 且 对 应 的 软件 是 用 
JavaScript 编 写 的 ， 因 此 我 们 把 这 部 分 内 容 放 到 了 附录 E 中 。 读 者 可 以 现 
在 束 去 阅读 附录 E， 寿 是 对 线 上 机 右 人 对 弈 不 感 兴趣 ， 也 可 以 跳 过 这 一 
节 。 读 完 附 录 E， 该 者 应 该 可 以 学 到 以 下 技能 : 





。 在 OGS 上 创建 两 个 账 尸 ， 一 个 是 机 器 人 本 刁 的 账户 ， 另 一 个 是 个 人 
账户 ， 用 来 对 机 器 人 账户 进行 管理 ; 

。 将 机 器 人 从 本 地 计算 机 上 连接 到 OGS 进 行 测试 ; 

。 将 机 器 人 部 晋 到 AWS 实 例 上 ， 以 便 随时 与 OGS 保 持 连通 。 





这 样 ， 我 们 就 能 够 与 目 己 构建 的 机 器 人 进行 一 场 〈 排 名 ) 比赛 了 。 
不 仅 如 此 ， 任 何 拥有 OGS 账 户 的 棋 手 都 可 以 挑战 我 们 的 机 器 人 了 ， 这 一 
点 确实 激动 人 心 。 并 且 最 重要 的 是 ， 我 们 的 机 器 人 甚至 还 可 以 参加 OGS 
主办 的 联赛 ! 





和 7 了 7， 才 * 结 


。 将 深度 学 习 网 络 集成 到 一 个 代理 框架 中 ， 让 模型 能 够 与 它 所 处 的 环 
境 交 互 。 

。 将 代理 注册 到 一 个 web 应 用 ， 并 构建 一 个 HITP 前 端 ， 让 人 们 可 以 
通过 图 形 界面 与 自己 的 机 器 人 进行 对 战 。 

。 使 用 AWS 之 类 的 云 平 台 ， 可 以 租用 GPU 计 算 能 力 来 高 效 地 执行 深 
度 学 习 实 验 。 

。 在 AWS 上 部 署 Web 应 用 ， 可 以 轻松 地 分 享 机 器 人 ， 并 让 它 与 他 人 进 
行 对 战 。 





给 机 絮 人 添加 收发 GTP 命令 的 功能 ， 让 它 按照 标准 方式 与 其 他 围棋 
程序 在 本 地 进行 对 战 。 

为 机 器 人 构建 一 个 GTP 前 器 ， 以 便 能 够 将 它 注 册 到 茶 个 在 线 围 棋 平 
全 

。 在 云 平台 中 部 署 机 右 人 ， 让 它 可 以 进行 常规 的 对 穿 ， 或 者 参加 OGS 
举办 的 联赛 ,或 者 随时 随地 与 自己 对 穿 。 








第 9 章 ” 通 过 实践 学 习 : 强化 学 习 


本 章 主要 内 容 
。 定义 强化 学 习 的 任务 。 
。 建立 一 个 围棋 棋局 学 习 代 理 。 
。 收集 目 我 对 春 的 经 验 以 用 于 训练 。 


我 大 概 读 过 十 多 本 围棋 相关 的 书 ， 它 们 都 是 由 中 日 项 的 职业 围棋 高 
手 所 著 的 ， 但 我 的 个 人 水 平 只 有 中 等 业余 级 别 。 为 什么 我 一 直 没 能 达到 
这 些 职业 棋 手 的 水 平 呢 ? 是 因为 我 筷 记 了 他 们 书 中 的 技巧 吗 ? 我 并 不 这 
么 认为 : 影山 利 郎 《Toshiro Kageyama) 的 《围棋 基础 教程 》 (Ishi， 
1978) 我 几乎 能 倒 背 如 流 。 也 许 我 还 得 读 更 多 的 书 .……. 





我 不 知道 成 为 顶级 围棋 大 师 的 秘诀 是 什么 ， 但 至 少 知道 我 与 职业 围 
棋 选 手 之 间 的 一 个 根本 差别 : 实践 练习 。 围 棋 选手 在 获得 职业 资格 之 前 
可 能 需要 参加 5 000 一 10 000 场 比赛 。 实 践 创造 新 知 ， 而 且 得 到 的 往往 是 
只 可 意 会 不 可 言传 的 新 知 。 围 棋 的 知识 确实 可 以 总 结 一 一 这 也 是 为 什么 
要 把 它们 写 进 书本 的 原因 ， 但 很 多 微妙 的 知识 都 在 翻译 成 文字 的 过 程 中 
丢失 了 。 如 果 想 要 完全 掌握 我 们 所 学 的 围棋 知识 ， 束 必须 进行 相应 水 准 
的 练习 。 











既然 实践 对 人 来 说 是 如 此 宝 贯 ， 那 么 对 计算 机 而 言 也 是 如 此 吗 ? 计 
算 机 程序 是 否 能 够 通过 实践 来 进行 学 习 ? 这 正 是 强化 学 习 
(Reinforcement Learning，RL ) 宣称 的 能 力 。 在 强化 学 习 中 ， 我 们 让 程 
序 反 复 不 断 地 符 试 某 项 任务 来 改进 程序 。 每 当 结果 理想 时 ， 修 改 程序 ， 
让 它 能 够 在 未 来 复 现 当 时 的 决策 ， 而 当 绪 有 末 不 佳 时 ， 也 要 修改 程序 来 避 
免 这 种 决策 。 当 然 这 并 不 意味 着 每 次 试验 之 后 都 需要 编写 新 代码 : 强化 
学 习 算 法 提供 了 一 种 自动 化 的 方法 来 自行 修改 代码 。 




















当然 ， 强 化 学 习 并 不 是 “免费 午餐 ”。 首 先 ， 它 的 速度 很 慢 : 机 大 人 
需要 完成 数 以 干 计 的 任务 实践 之 后 才能 取得 明显 的 进步 。 为 外 ， 它 的 训 
练 过程 极 其 烦 珊 ， 因 此 调试 起 来 也 非常 困难 。 但 如 果 能 够 付出 足够 的 努 
力 ， 让 这 些 技术 能 够 发 挥 作 用 ， 那 么 回报 也 将 会 是 巨大 的 : 我 们 将 构建 
出 能 够 利用 复杂 集 略 去 完成 各 种 任务 的 软件 ， 即 使 我 们 自己 也 不 知道 该 
如 何 描述 这 些 策略 。 

本 章 先 对 强化 学 习 周 期 进行 介绍 ， 接 下 来 再 介绍 如 何 设置 围棋 机 器 


人 ， 让 和 它 按 照 与 强化 学 习 过 程 相符 的 方式 进行 目 我 对 春 。 在 第 10 章 中 ， 
我 们 将 展示 如 何 利用 目 我 对 弈 数据 来 提高 机 器 人 的 性 能 。 





9.1 强化 学 习 周 期 


许多 算法 者 实现 了 强化 学 习 的 机 制 ， 而 它们 的 工作 流程 都 遵循 同一 
个 标准 框 杂 。 本 节 描 述 强 化 学 习 周 期 ， 在 这 个 周期 中 ， 计 算 机 程序 通过 
反复 党 试 一 项 任务 来 进行 改进 。 图 9-1 展 示 了 这 个 周期 的 流程 。 





通用 的 强化 学 习 周 期 
根据 经 验 结果 更 新 代理 的 行为 





在 测试 环境 中 反复 尝试 任务 将 新 的 代理 与 基线 版 本 
相 比 较 ， 以 评估 它 的 改进 


围棋 Al 的 强化 学 习 周期 
根据 棋局 结果 使 用 梯度 下 降 算 法 更 新 神经 网 络 的 权重 





执行 数 以 千 计 的 自我 对 弈 让 更 新 的 机 器 人 与 之 前 版 本 的 机 器 人 、 
棋局 ， 并 记录 棋谱 其 他 围棋 机 器 人 或 人 类 进行 对 弈 








图 9-1 强化 学 习 周 期 。 实 现 强化 学 习 的 方法 有 很 多 ， 但 所 有 方法 的 流程 都 有 一 个 共同 的 结构 。 
首先 ， 计 算 机 程序 反复 尝试 某 项 任务 。 我 们 把 这 些 尝试 的 记录 称 为 经 验 数据 。 接 下 来 ， 修 改 程 
序 的 行为 以 模仿 那些 更 成 功 的 尝试 ， 而 这 个 过 程 就 是 训练 过 程 。 然 后 ， 定 期 评估 性 能 ， 以 确认 
程序 是 否 还 需 改 进 。 通 常 来 说 ， 整 个 过 程 需 要 重复 多 个 周期 









































在 强化 学 习 的 语言 里 ， 我 们 的 围棋 机 器 人 称 为 一 个 代理 ， 即 一 个 为 
了 完成 任务 而 不 断 作 出 决策 的 程序 。 在 本 书 前 面 的 章节 里 ， 我 们 实现 了 
多 个 不 同 版 本 的 Agent 代 理 类 ， 它 们 都 可 以 选择 围棋 动作 。 我 们 为 所 有 
代理 类 都 提供 了 一 个 相同 的 环境 ， 即 一 个 GameState 对 象 。 所 有 代理 都 
会 作出 一 个 决策 ， 即 选择 一 个 落 子 动作 。 虽 然 那 时 候 还 没有 使 用 强化 学 
习 ， 但 代理 的 概念 是 相通 的 。 





强化 学 习 的 目的 是 使 代理 尽 可 能 变 得 更 有 效 。 针 对 具体 的 情况 ， 我 
们 希望 代理 能 在 围棋 比赛 中 获胜 。 





首先 ， 让 围棋 机 器 人 进行 一 系列 的 目 我 对 弈 ， 在 每 一 局 比赛 中 ， 它 
都 需要 记录 棋局 的 每 一 回合 以 及 最 后 的 结果 。 这 些 棋谱 称 为 它 的 经 验 


(experience) 。 








接 下 来 ， 根 据 机 器 人 在 自我 对 奔 中 得 到 的 经 验 来 训练 它 ， 并 更 新 它 
的 行为 。 这 个 过 程 类 似 于 第 6 章 和 第 7 章 所 描述 的 神经 网 络 的 训练 。 强 化 
学 习 的 核心 思想 ， 是 让 机 器 人 去 学 习 在 对 硬 中 获胜 时 所 做 的 决策 ， 并 减 
它 在 失败 时 所 做 的 决策 。 训 练 算法 应 当 有 机 地 融入 代理 结构 中 : 我 们 
要 能 够 系统 性 地 修改 代理 的 行为 ， 以 便 进 行 训练 。 有 很 多 算法 可 以 做 
到 这 一 点 ， 本 书 会 讨论 其 中 3 个 : 在 本 章 和 第 10 章 中 ， 我 们 将 先 从 策略 
相 度 〈policy gradient) 算法 开始 介绍 ; 在 第 11 章 中 ， 我 们 将 讨论 Q 和 学 习 
(Q-learning) 算法 ;第 12 章 将 介绍 演员 -评价 〈actor-critic) 算法 。 








多 
上 如 
TH 





训练 完成 后 ， 机 器 人 应 当 会 变 得 更 强大 一 些 。 但 是 可 能 导致 训练 过 
程 出 错 的 情况 也 不 少 ， 所 以 很 有 必要 评估 机 器 人 的 改进 程度 ， 并 确定 它 
的 强度 。 要 评估 一 个 游戏 代理 ， 只 要 让 它 完成 更 多 的 游戏 即 可 。 我 们 可 
以 让 代理 与 它 的 早期 版 本 进行 对 春来 评估 它 的 进步 。 而 作为 一 种 保险 性 
检查 ， 我 们 还 可 以 定期 将 机 器 人 与 其 他 人 工 智能 进行 比较 ， 或 者 杀 目 与 
它 进 行人 机 对 而 。 





在 这 之 后 ， 就 可 以 无 限 地 重复 这 个 迭代 循环 了 : 


收集 经 验 ; 


。 训练 ; 
。 评估。 
我 们 会 把 这 个 迭代 循环 周期 分 解 为 多 个 脚本 。 在 本 章 中 ， 我 们 会 实 
现 一 个 self_play 脚 本 ， 它 将 模拟 目 我 对 春 棋 局 ， 并 将 经 验 数据 保存 到 
磁盘 中 。 在 第 10 章 中 ， 我 们 将 创建 一 个 train 脚 本 ， 它 可 以 接收 经 验 数 
据 作为 输入 ， 进 而 相应 地 更 新 代理 ， 并 保存 更 新 的 代理 。 





9.2 经验 包括 哪些 内 容 


在 第 3 章 中 ， 我 们 设计 了 一 组 表示 围棋 游戏 的 数据 结构 。 我 们 已 经 
熟悉 如 何 用 Move、GoBoard 和 GameSstate 等 类 来 存储 整个 棋谱 。 但 强化 
学 习 算 法 则 不 同 ， 它 更 加 通用 ， 它 所 处 理 的 是 问题 的 高 度 抽象 表示 ， 因 
此 相同 的 算法 可 以 应 用 于 尽 可 能 多 的 领域 。 本 节 将 展示 如 何 用 强化 学 习 
的 语言 来 描述 棋谱 。 


对 围棋 来 说 ， 可 以 把 经 验 数 据 按照 独立 的 棋局 进行 划分 ， 在 强化 学 
习 里 ， 这 个 术语 称 为 期 (episode) 。 每 一 期 训练 数据 都 有 明确 的 结 
而 且 在 本 期 训练 中 所 做 的 决定 ， 与 下 一 期 里 发 生 的 事情 没有 任何 关系 。 
在 其 他 问题 领域 ， 可 能 没有 明显 的 方法 来 将 经 验 划分 为 独立 期 。 例 如 ， 
一 个 设计 为 连续 运行 的 机 器 人 会 做 出 无 穷 无 尽 的 决策 。 我 们 可 以 想 办 法 
将 强化 学 习 应 用 于 这 类 问题 ， 但 是 在 我 们 的 问题 里 ， 有 训练 期 的 边界 作 
为 区 分 ， 会 让 问题 变 得 更 简单 。 





下 一 个 训练 期 中 ， 代 理 在 所 处 环境 里 面临 一 个 状态 〈state) 。 代 理 


必须 根据 当前 的 状态 来 选择 一 个 行动 Caction) 。 选 择 行动 之 后 代理 将 
进入 一 个 新 的 状态 ， 这 个 状态 取决 于 所 选择 的 行动 以 及 环境 中 所 发 生 的 
任何 其 他 事情 。 在 围棋 的 场景 中 ，AI 面 临 一 个 棋局 〈 即 状态 ) ， 并 选择 
一 个 合法 的 落 子 动作 〈 即 行动 ) 。 在 那 之 后 AI 将 在 它 的 下 一 回合 〈 即 下 
一 个 状态 ) 看 到 新 的 棋局 。 


注意 ， 代 理 选 择 行动 之 后 的 新 状态 也 包括 对 手 的 回应 动作 。 只 用 当 
前 状态 和 代理 所 选择 的 行动 是 无 法 确定 下 一 个 状态 的 ， 还 必须 等 待 对 手 
的 动作 。 对 手 的 行为 ， 是 代理 必须 学 会 驾驭 的 环境 的 一 部 分 。 











为 了 让 代理 得 到 改进 ， 我 们 需要 获得 是 否 实 现 了 目标 的 反馈 。 反 僻 
信息 可 以 通过 计算 代理 的 收获 (reward， 即 实现 目标 的 某 种 数值 评分 》 
来 获得 。 对 围棋 AI 来 说 ， 它 的 目标 是 赢得 一 场 比赛 ， 所 以 在 每 次 获胜 时 
它 将 会 获得 评分 为 1 的 收获 ， 而 在 每 次 失败 时 获得 评分 为 -1 的 收获 。 强 
化 学 习 算 法 会 修改 代理 的 行为 ， 增 加 代理 累积 的 收获 分 数 。 图 9-2 说 明 
了 如 何 用 状态 、 行 动 和 收获 来 描述 围棋 游戏 。 





状态 1 3 
| | \\L_ 第 一 个 状态 是 一 个 空 棋盘 ， 
这 时 候 代理 必须 选择 第 一 
步 落 子 动作 。 





行动 1 Te 代理 选择 了 C3〔 即 棋盘 中 心 
点 ) 作为 第 一 步 落 子 。 


状态 2 3 二- 人 对 手 回应 A1 落 子 之 后 ，A1 
| 合 品 ，、_ 动 将 在 下 一 个 次 太 中 展现 ， 
D | 
行动 2 C2 





行动 10 





收获 加 棋局 终 盘 时 ， 代 理 获得 了 
获胜 评分 为 +1 的 收获 。 


图 9-2 ”将 一 局 5x5 的 围棋 比赛 翻译 成 强化 学 习 的 语言 。 正 在 训练 的 代理 执 黑 子 。 它 将 会 看 到 一 














系列 的 状态 《〈 即 棋盘 状态 ) 并 选择 对 应 的 行动 〈《 即 合法 的 落 子 动作 ) 。 在 一 个 训练 期 〈《 即 一 局 
完整 的 比赛 ) 结束 时 ， 它 会 得 到 一 份 收获 ， 以 表示 是 否 达到 了 目标 。 在 本 例 中 黑 方 最 终 获胜 ， 
因此 黑 方 代理 得 到 的 收获 是 +1 
































围棋 等 棋 类 游戏 有 一 种 特殊 情况 它们 的 收获 都 是 在 游戏 结束 时 一 
次 性 获得 的 。 收 获 只 有 两 种 可 能 一 一 胜利 或 失败 ， 而 不 必 关 心 棋局 过 程 
中 还 发 生 了 什么 。 在 其 他 的 领域 ， 收 获 则 可 能 是 分 散 的 。 假 设 让 人 工 智 
能 来 玩 拼 字 游 戏 〈Scrabble) 。 每 个 回合 中 AI 都 会 拼 出 一 个 单词 并 获得 
分 数 ， 而 它 的 对 手 也 会 这 么 做 。 在 这 种 情况 下 ， 可 以 把 AI 获得 的 分 数 算 
作 正 收获 ， 把 对 手 获得 的 分 数 算 作 负 收 获 。 这 样 ， 人 工 智能 束 不 必 等 到 
一 期 训练 结束 ， 而 是 在 每 次 行动 后 都 能 得 到 一 小 部 分 收获 。 








在 强化 学 习 中 有 一 个 关键 的 概念 ， 即 一 次 行动 可 能 会 在 很 久之 后 的 
未 来 带 来 收获 。 想 象 一 下 ， 己 方 在 一 场 比赛 的 第 35 回 合 ， 做 了 一 个 特别 
聪明 的 动作 ， 之 后 在 第 200 回 合 获胜 。 这 局 棋 的 最 终 胜利 至 少 有 一 部 分 
要 归功 于 棋局 早期 的 优秀 表现 。 我 们 必须 想 出 某 种 方法 将 游戏 最 终 的 收 
获 分 派 给 所 有 的 动作 。 我 们 把 代理 在 某 个 行动 之 后 所 看 到 的 未 来 奖励 称 
为 这 次 行动 的 回报 (retum) 。 要 计算 一 次 行动 的 回报 ， 需 要 将 代理 在 
这 次 行动 之 后 看 到 的 所 有 收获 累加 起 来 ， 一 直 累 加 到 本 期 的 末尾 ， 如 代 
码 清 单 9-1 押 示 。 这 么 做 也 说 明 我 们 并 不 能 提前 得 知 哪个 动作 最 终 导 致 
了 和 输赢。 我们 把 责任 交 给 了 学 习 算 法 ， 让 它 来 分 摊 功 务 ， 或 者 归 因 于 少 
数 几 次 独立 的 行动 。 














代码 清单 9-1 计算 行动 的 回报 











for exp_idx in range(exp_length ) : 
total_return[exp_idx] = reward[exp_idx] <--- Feward[i] 是 代理 在 行动 1 
之 后 立即 能 够 看 到 的 收获 


for future reward idx in range(exp_idx + 1, exp_length): <--- 循环 














遍历 未 来 所 有 的 收获 ， 并 将 它们 添加 到 回报 中 


total_return[exp_idx] += reward[future reward idx] 








这 个 假设 并 不 适用 于 所 有 问题 。 再 次 考虑 拼 字 游戏 的 示例 。 第 1 回 
合 所 做 的 诀 定 可 能 会 影响 到 第 3 回合 的 得 分 ， 例 如 把 一 个 得 分 很 高 的 X 
保留 下 来 ， 和 直到 能 把 它 和 一 个 奖励 小 方 框 结合 起 来 为 止 。 但 是 很 难看 出 
第 3 回合 的 决定 会 对 第 20 回 合 有 什么 影响 。 为 了 在 回报 计算 中 表达 这 个 
概念 ， 可 以 改 为 计算 每 个 行动 的 未 来 回报 的 加 权 和 。 行 动 离 得 越 远 权重 
就 越 小 ， 这 样 未 来 的 收获 融会 比 近期 的 收获 影响 小 。 











这 种 技巧 称 为 收获 打折 (discounting) 。 代 码 清单 9-2 展 示 了 如 何 计 
算 折 扣 回 报 的 过 程 。 在 这 个 例子 中 ， 每 一 个 行动 会 获得 紧 随 其 后 的 下 一 
步行 动 的 全 部 收获 。 但 再 下 一 步行 动 的 收获 就 只 占 75% 了 ， 因 此 两 步 之 
后 的 收获 只 有 75% x 75%x56%， 以 此 类 推 。 这 里 选择 的 75% 只 是 一 个 示 
例 ， 真 正 适 合 的 折扣 率 则 取决 于 所 处 理 的 特定 领域 。 最 有 效 的 折扣 率 可 
能 需要 进行 多 次 试验 才能 找到 。 








代码 清单 9-2 计算 折扣 回报 








for exp_idx in range(exp_length): 
discounted return[exp_idx] = reward[exp_idx] 
discount amount = 6.75 
for future reward idx in range(exp_idx + 1, exp_length): 


discounted return[exp_idx] += 
discount amount * reward[future reward idx] 
discount amount *= 8.75 <--- ” 随 着 距离 原始 行动 越 来 越 远 ，discount_ 
amount 会 变 得 越 来 越 小 




















在 构建 围棋 AI 的 场景 中 ， 唯 一 可 能 的 收获 束 是 胜利 或 失败 。 这 就 让 
我 们 在 计算 回报 的 时 候 可 以 走 一 条 捷径 : 当 我 们 的 代理 获得 胜利 时 ， 游 








戏 中 的 每 个 行动 都 获得 +1 的 回报 ; 而 当代 理 失 败 时 ， 每 个 行动 的 回报 
值 都 是 -1。 


9.3 ”建立 一 个 有 学 习 能 力 的 代理 


强化 学 习 无 法 凭空 创造 出 围棋 AI 或 其 他 类 型 的 智能 代理 ， 而 只 能 改 
进 一 个 已 经 能 够 在 游戏 规则 框架 内 工作 的 机 器 人 人。 因此， 我 们 首先 需要 
一 个 至 少 能 完成 游戏 的 代理 。 丁 展示 如 何 创建 围棋 机 玫 人 ， 并 使 用 神 
经 网 络 来 选择 动作 。 如 果 从 一 个 未 经 训练 的 网 络 开 始 ， 这 个 机 器 人 将 会 
和 第 3 章 里 的 RandomAgent 一 样 糟 糙 。 所 以 我 们 可 以 用 强化 学 习 来 改进 
这 个 神经 网 络 。 





策略 (policy〉 指 的 是 一 个 根据 给 定 状 态 来 选择 行动 的 函数 。 在 前 
几 章 中 ， 我 们 见 过 几 个 具有 select_move 函 数 的 Agent 类 的 实现 。 每 一 
个 select_move 函 数 都 是 一 个 策略 : 输入 一 个 游戏 状态 ， 输 出 一 个 动 
作 。 到 目前 为 止 ， 我 们 执行 的 所 有 策略 都 是 有 效 的 ， 因 为 它们 会 产生 合 
法 的 动作 。 但 它们 的 效果 则 不 尽 相 同 : 第 4 章 中 的 MCTSAgent 往 往 会 打 
败 第 3 章 中 的 RandomAgent。 如 果 想 要 改进 这 些 代理 ， 就 需要 考虑 对 算 
法 进行 改进 ， 编 写 新 的 代码 ， 并 测试 它 一 一 这 是 一 个 标准 的 软件 开发 过 


程 。 


而 要 使 用 强化 学 习 ， 则 需要 一 个 可 以 用 其 他 计算 机 程序 来 进行 自动 
更 新 的 策略 。 在 第 6 章 中 ， 我 们 已 经 学 习 过 一 类 函数 一 一 卷 积 神经 网 
络 。 它 恰好 可 以 帮助 我 们 做 到 这 一 点 。 深 度 神经 网 络 可 以 计算 复杂 的 逻 
辑 ， 而 且 使 用 梯度 下 降 算法 可 以 修改 它 的 行为 。 








我 们 在 第 6 章 和 第 7 章 中 设计 的 动作 预测 神经 网 络 ， 其 输出 是 一 个 同 
量 ， 为 棋盘 上 的 每 一 点 计算 了 一 个 值 。 每 个 交叉 点 得 到 的 值 代 表 网 络 预 
汕 下 一 步 在 该 点 落 子 的 置信 度 。 那 么 如 何 把 这 种 输出 转换 成 一 个 策略 
呢 ? 一 种 简单 的 方法 是 直接 选择 具有 最 高 值 的 动作 。 如 果 网 络 已 经 训练 
完毕 ， 能 够 选择 民 好 的 动作 ， 那 么 这 个 方法 就 可 以 得 到 不 错 的 结果 。 但 
对 于 任意 一 个 给 定 的 棋局 ， 这 种 策略 总 是 会 选择 相同 的 动作 。 这 会 给 强 
化 学 习 带 来 一 个 问题 : 为 了 通过 强化 学 习 来 提高 性 能 ， 我 们 需要 选择 各 
种 各 样 的 动作 ， 其 中 有 些 会 更 好 ， 有 些 会 更 糟 。 我 们 观察 它们 所 产生 的 
结果 ， 以 寻找 更 好 的 动作 。 但 是 要 想 改进 ， 多 样 化 就 是 必需 的 。 














因此 ， 相 比 于 总 选择 最 高 值 的 动作 的 策略 ， 我 们 更 需要 一 个 随机 策 
略 (stochastic policy) 。 这 里 ， 随 机 意味 着 如 果 在 同样 的 棋局 下 进行 两 
次 动作 选择 的 话 ， 代 理 可 能 会 做 出 不 同 的 选择 。 但 这 里 引入 的 随机 性 ， 
和 第 3 章 中 实现 的 RandomAgent 的 随机 方式 又 有 所 不 同 。RandomAgent 
选择 动作 与 游戏 中 发 生 了 什么 无 关 。 随 机 策略 意味 着 动作 选择 会 依赖 棋 
盘 状态 ， 但 又 不 是 100% 可 预测 的 。 





9.3.1 ”从 东 个 概率 分 布 中 进行 抽样 








对 于 任何 棋局 ， 神 经 网 络 都 会 给 出 一 个 同 量 ， 它 的 每 个 元 素 对 应 于 
棋盘 上 的 一 个 交叉 点 。 要 用 这 个 同 量 来 创建 策略 ， 可 以 把 它 的 每 个 元 系 
值 看 作 是 选择 对 应 交叉 点 的 落 子 动作 的 概率 。 本 节 将 展示 如 何 根据 这 些 
概率 来 进行 动作 选择 。 








例如 ， 假 设 玩 剪刀 石头 布 游戏 ， 我 们 可 以 采用 一 种 策略 : 50% 的 概 
率 选 石头 ，30% 选 布 ，20% 选 剪刀 。 我 们 把 这 个 50%-30%-20% 的 划分 ， 
称 为 这 3 种 选择 的 一 个 概率 分 布 。 注 意 ， 概 率 值 的 总 和 恰好 是 100%， 这 
是 由 于 策略 必须 总 是 选择 列表 中 的 一 项 。 这 是 概率 分 布 的 一 个 必要 属 
性 ， 否 则 假如 有 一 个 50%-30%-10% 的 策略 ， 则 会 留 下 10% 的 概率 无 法 得 
到 任何 决策 


按照 这 种 比例 来 随机 选择 一 项 的 过 程 ， 称 为 从 概率 分 布 中 进行 抽 
样 。 代 码 清单 9-3 展 示 了 一 个 Python 函数 ， 它 将 根据 这 个 策略 从 多 个 选项 
中 选择 一 个 





代码 清单 9-3 ”从 概率 分 布 中 抽样 的 示例 

















import random 


def rps(): 

randval = random.random() 

if 0.0 <= randval < 0.5: 
return 'rock' 

elif 86.5 <= randval < 0.8: 
return ‘paper' 

else: 
return 'scissors' 








和 莹 试 将 这 段 代 码 多 运行 几 次 ， 看 看 它 会 有 什么 表现 。 我 们 将 会 看 
到 ， 出 rock 的 次 数 比 出 paper 多 ， 而 出 paper 的 次 数 比 出 scissors 多 ， 
但 3 种 选择 都 会 时 常 出 现 。 


NumPy 也 内 置 了 这 种 从 概率 分 布 中 进行 抽样 的 逻辑 ， 
即 np.random.choice 函 数 。 代 码 清 单 9-4 展 示 了 如 何 使 用 NumPy 来 实现 
相同 的 功能 


代码 清单 9-4 “使 用 Numpy 从 概率 分 布 中 抽样 








import numpy as np 


def rps(): 
return np.random.choice( 
['rock', 'paper', "scissors ' ]， 
p=[6.5，6.3，6.2]) 








另外 ，np.random.select 函 数 则 可 以 处 理 来 自 相 同 分布 的 重复 抽 
样 。 它 将 从 这 个 分 布 中 进行 一 次 抽样 ， 并 从 列表 中 移 除 该 项 ， 然 后 继续 
从 其 余 项 目 中 进行 抽样 。 通 过 这 种 方式 ， 我 们 可 以 得 到 一 个 半 随 机 的 有 
序列 表 。 概 率 更 高 的 项 目 很 可 能 出 现在 列表 的 前 面 ， 但 所 有 项 目的 次 序 
仍然 保留 了 一 些 变 化 。 代 码 清单 9-5 展 示 了 如 何 使 用 np.random. choice 
来 进行 多 次 抽样 。 传 入 参数 size=3， 表 示 需 要 3 个 不 同 的 选项 ， 参 
数 replace=False 表 示 我 们 不 希望 进行 重复 抽样 。 














代码 清单 9-5 ”使 用 NumPy 对 概率 分 布 进行 重复 抽样 





import numpy as np 


def repeated rps(): 
return np.random.choice( 


['rock', 'paper', 'scissors'], 
Size=3， 

replace=False, 

p=[6.5, 6.3, 86.2]) 





如 果 围 棋 策 略 建议 了 一 个 非法 的 动作 ， 这 时 候 重 复 抽 样 束 非常 有 用 
了 。 在 遇 到 非法 动作 时 ， 再 另外 选择 一 个 动作 即 可 : 只 要 再 调用 一 
次 np.random.choice， 然 后 使 用 它 生成 的 下 一 个 动作 就 行 了 。 


9.3.2” 甬 裁 概 率 分 布 


强化 学 习 过 程 可 能 相当 不 稳定 ， 在 训练 的 早期 尤为 如 此 。 代 理 可 能 
会 对 偶然 的 获胜 采取 过 度 的 反应 ， 并 暂时 给 那些 实际 并 不 那么 好 的 动作 
分 配 过 高 的 概率 。〈 在 这 方面 ， 它 和 人 类 初学 者 没什么 不 同 ! ) 甚至 可 
能 出 现 某 一 个 特定 动作 的 概率 一 直上 升 到 1 的 情况 。 这 会 导致 一 个 微妙 
的 问题 ， 由 于 我 们 的 代理 总 是 选择 相同 的 动作 ， 因 此 它 残 没 机 会 态 挥 它 
了 。 





为 了 防止 这 种 情况 发 生 ， 可 以 对 概率 分 布 进行 可 裁 操作 ， 以 避免 概 
率 被 一 直 推 向 0 或 1， 如 代码 清单 9-6 所 示 。 在 第 8 章 的 
DeepLearningAgent 里 ， 我 们 也 做 过 类 似 的 事情 。NumPy 里 的 
np.clip 函 数 可 以 完成 这 个 工作 。 





代码 清单 9-6 ”对 一 个 概率 分 布 进行 剪裁 





def clip probs(original probs): 
min p = 1e-5 
max p=1- minp 


clipped probs = np.clip(original probs, min p, max_p) 
clipped probs = clipped probs / np.sum(clipped probs) <--- ”确保 结果 
仍然 是 一 个 有 效 的 概率 分 布 


return clipped probs 








9.3.3 ”初始 化 一 个 代理 实例 


让 我 们 开始 构建 一 种 新 型 的 代理 PolicyAgent。 它 能 够 根据 一 个 随 
机 策略 来 选择 动作 ， 并 可 以 从 经 验 数 据 中 学 习 。 这 个 模型 与 第 6 章 和 第 7 
章 的 动作 预测 模型 基本 一 致 ， 唯 一 的 区 别 在 于 如 何 训 练 它 。 我 们 把 这 个 








类 的 代码 添加 到 dlgo/agent/pg.py 文 件 中 。 





回顾 前 面 的 章节 可 以 看 到 ， 我 们 的 模型 需要 一 个 与 它 相 匹配 的 棋盘 
编码 方案 。PolicyAgent 类 的 构造 函数 (如 代码 清单 9-7 所 示 〉 所 接收 
的 参数 包括 模型 与 棋盘 编码 器 。 这 样 做 可 以 将 不 同 的 关注 点 进行 良好 的 
分 离 。PolicyAgent 类 负责 根据 模型 选择 动作 ， 并 根据 经 验 数 据 更 改 它 
的 行为 ， 但 它 可 以 忽略 模型 结构 和 棋盘 编码 方案 的 细节 。 





代码 清单 9-7 PolicyAgent 类 的 构造 函数 








class PolicyAgent(Agent ) : 
def _init (self, model, encoder): 


self.model = model <--- ”一 个 Keras 顺 序 模型 实例 
self.encoder = encoder <--- 实现 编码 器 接口 























要 开局 强化 学 习 ， 表 先 要 构建 一 个 棋盘 编码 硕 ， 然 后 再 构建 一 个 模 
型 ， 最 后 用 它们 实例 化 一 个 代理 。 代 码 清单 9-8 展 示 了 这 个 过 程 。 




















代码 清单 9-8 构造 一 个 新 的 学 习 代 理 




















encoder = encoders.simple.SimpleEncoder((board size, board size)) 

model = Sequential() <--- ”用 第 6 章 中 介绍 的 dlgo.network.1large 模 块 中 的 层 构 

建 一 个 顺序 模型 

for layer in dlgo.networks.1large.layers(encoder.shape()): 
model.add(layer) 


























model.add(Dense(encoder.num points())) <--- 添加 一 个 输出 层 ， 返 回 
点 的 概率 分 布 

model.add(Activation('softmax' ) ) 

new_agent = agent.PolicyAgent(model, encoder) 








构造 这 样 的 代理 时 ， 对 于 新 创建 的 模型 ，Keras 会 将 它 的 权重 初始 
化 为 很 小 的 随机 值 。 此 时 ， 代 理 的 策略 接近 于 一 致 随机 (uniform 
random) ， 即 它 会 在 具有 大 致 相同 概率 的 有 效 动 作 中 任 选 一 个 。 稍 后 ， 


模型 会 随 者 不 断 训 练 ， 做 出 更 加 复杂 的 决策 。 


9.3.4 在 磁盘 上 加 载 并 保存 代理 











强化 学 习 过 程 可 以 无 限期 地 持续 下 去 ， 可 能 要 人 花 几 天 甚至 几 周 时 间 
来 训练 机 器 人 。 因 此 需要 定期 将 机 器 人 持久 化 存储 到 磁盘 上 ， 以 便 局 动 
或 停止 训练 过 程 ， 并 比较 它 在 训练 周期 中 不 同 节点 的 性 能 。 


要 存储 代理 ， 可 以 用 第 8 章 介 绍 的 HDF5 文 件 格式 。HDF5 格 式 是 方 
便 存 储 数值 型 数组 的 格式 ， 它 与 NumPy 和 Keras 的 集成 度 也 很 高 。 


在 PolicyAgent 类 上 定义 一 个 serialize 方 法 ， 用 来 将 它 的 编码 器 
和 模型 持久 化 存储 到 磁盘 上 ， 如 代码 清单 9-9 所 示 。 这 样 就 足以 重建 代 
理 了 。 





代码 清单 9-9 将 一 个 PolicyAgent 实 例 序 列 化 到 磁盘 


class PolicyAgent(Agent ) : 


def serialize(self, hsfile): 
hsfile.create group('encoder') 
hsfile['encoder'].attrs['name'] = self.encoder.name() 
储 足 以 重建 棋盘 编码 器 的 信息 
hsfile['encoder'].attrs['board width'] = \ 
self.encoder.board width 
hsfile['encoder'].attrs['board height'] = \ 
self.encoder .board height 
hsfile.create group('model') 
kerasutil.save model to hdf5 group( <--- 使 用 Keras 内 置 的 特性 来 持 
久 化 模型 以 及 它 的 权重 
self. model, hsfile[l 'model']) 























这 里 ，h5file 参 数 可 以 是 一 个 h5py .File 对 象 ， 也 可 以 


是 h5py.File 中 的 一 个 群 组 。 这 样 做 的 好 处 是 能 够 把 其 他 数据 与 这 个 代 
理 打 包 到 同一 个 HDF5 文 件 中 。 


要 使 用 这 个 serialize 方 法 ， 需 要 先 创 建 一 个 新 的 HDF5 文 件 ， 然 
后 传 入 文件 句柄 ， 如 代码 清单 9-10 所 示 。 


代码 清单 9-10 ”使 用 serialize 方 法 的 示例 


import h5py 


with h5py.File(Coutput _ file， 'w') as outf: 
agent. serialize(outf) 





接着 ， 用 一 个 对 应 的 load_policy_agent 函 数 来 实现 反 序 列 化 的 
过 程 ， 如 代码 清单 9-11 所 示 。 




















代码 清单 9-11 从 文件 中 加 载 策略 代理 





def load policy agent(h5file) : 
model = kerasutil.load model from hdf5 group( <--- 使 用 内 置 的 Keras 
函数 加 载 模型 结构 与 权重 
h5file[ 'model']) 
encoder name = h5file['encoder'].attrs['name'] <--- ”恢复 棋盘 编码 器 











board width = hsfile['encoder'].attrs['board width '] 
board height = hsfile['encoder'].attrs['board height'] 
encoder = encoders.get encoder by _namel( 

encoder_name， 

(board width, board height)) 
return PolicyAgent(model, encoder) 





9.3.5 ”实现 动作 选择 








在 开始 自我 对 弈 之 前 ，PolicyAgent 还 需要 再 实现 一 个 函 





数 select_move。 这 个 函数 看 起 来 与 第 8 章 中 添加 

到 DeepLearningAgent 中 的 select_move 函 数 类 似 。 它 的 第 一 步 是 将 
棋盘 编码 为 一 个 适合 作为 模型 输入 的 张 量 ( 即 多 个 堆 钱 的 矩阵 ， 见 附录 
A) 。 接 下 来 将 棋盘 张 量 输入 模型 ， 并 得 到 预测 动作 的 概率 分 布 。 然 后 
对 概率 分 布 进行 剪裁 ， 以 确保 没有 过 度 接近 1 或 0 的 概率 值 。 图 9-3 展 示 


了 这 个 流程 。 





游戏 状态 棋盘 张 量 
ololololol [lololololo 
| (> | OO ololololo|lololiloli 
@O 编码 器 —— m0l0ol1lolol lolololrlo 
, @e® 0lol1l1lojloljolololo 
0|0l0101011010101010 


A B [ 








0.01 | 0.01 | 0.01 | 0.23 | 0.01 





0.01 | 0.29 |0.01 | 0.01 | 0.01 
0.08 | 0.01 | 0.01 | 0.01 0.01 


0.01 | 0.01 | 0.01 | 0.01 | 0.19 





0.01 | 0.01 | 0.01 | 0.01 | 0.01 


动作 概率 


[B4 D5 E4 B5 E2 .… BJ]] 
排 好 序 的 候选 动作 





候选 动作 
[ALA2 A3 ... E5] 





图 9-3 ”动作 选择 过 程 。 首 先 将 游戏 状态 编码 成 一 个 数值 张 量 ， 然 后 把 这 个 张 量 传递 给 模型 ， 以 
得 到 各 个 动作 的 概率 。 接 着 对 棋盘 上 所 有 的 交叉 点 根据 动作 概率 进行 抽样 ， 得 到 一 个 排 好 序 的 



































候选 动作 列表 


代码 清单 9-12 展 示 了 如 何 实现 图 9-3 中 所 示 的 这 几 个 步骤 。 





代码 清单 9-12 ”使 用 神经 网 络 选 择 动 作 





class PolicyAgent(Agent ) : 


def select move(self, game_state): 
board tensor = self. encoder.encode(game state) 
X = np.array([board_ tensor]) <--- ”调用 Keras 的 预测 E 
的 预测 结果 ， 因 此 可 以 把 整个 棋盘 包装 成 一 个 数组 ， 人 然后 从 结果 数组 中 取 H 
move_probs = self. model.predict(X)[6] 





























move_probs = clip probs(move_probs) 





num moves = self. encoder.board width * \ 
含 棋盘 中 每 个 交叉 点 的 坐标 
self. encoder.board height 
candidates = np.arange(num moves) 
ranked moves = np.random.choice( <--- 根据 策略 从 棋盘 上 的 交叉 点 中 
抽样 ， 创 建 一 个 排 好 序 的 候选 交叉 点 列表 
candidates, num moves, 
replace=False, p=move probs) 























for point idx in ranked moves: <--- 循环 遍历 每 个 交叉 点 ， 检 查 
人 否 为 合法 动作 ， 并 选择 第 一 个 合法 动作 
point = self. encoder.decode point index(point idx) 
move = goboard.Move.play(point) 
is valid = game state.is valid move(move) 
is an eye = is point an eye( 
game_state.board, 
point， 
game_state.next_player) 
if is valid and (not is an eye): 
Peturn goboard.Move.play(point) 
return goboard.Move.pass turn() <--- ”如 果 代 码 运 行 到 了 这 里 ， 说 明 
没有 合法 的 动作 可 供 选 择 了 


9.4 目 我 对 春 : 计算 机 程序 进行 实践 训练 的 方式 























现在 我 们 已 经 有 了 一 个 能 够 完成 整个 棋局 的 学 习 代 理 ， 可 以 开始 收 
集 经 验 数 据 了 。 对 围棋 AI 来 说 ， 这 意味 着 需要 生成 数 以 万 计 的 棋局 。 本 
方 将 展示 这 个 过 程 的 实现 我 们 先 描 述 几 个 方便 经 验 数据 处 理 的 数据 结 
构 ， 然 后 展示 如 何 实现 自我 对 弈 驱动 程序 。 














9.4.1 经 验 数据 的 表示 


经 验 数 据 包含 3 个 部 分 状态、 行动 和 收获 。 要 把 这 3 类 数据 组 织 
好 ， 我 们 需要 一 个 独立 的 数据 结构 来 统一 存储 它们 。 


ExperienceBuffer (经验 缓冲 区 ) 类 是 一 个 轻 量 级 容器 ， 用 来 存 
储 经 验 数 据 。 如 代码 清单 9-13 所 示 ， 它 有 3 个 属性 : states、actions 
和 rewards。 这 3 个 属性 都 用 NumPy 数 组 来 存储 ， 而 代理 需要 将 自己 的 
状态 与 动作 编码 为 这 种 数值 结构 。ExperienceBuffer 只 是 一 个 用 来 传 
弟 数 据 集 的 容器 而 已 。 在 这 个 实现 里 ， 并 没有 包含 任何 梯度 学 习 特 有 的 
内 容 ， 因 此 在 后 面 的 章节 中 ， 我 们 可 以 把 这 个 类 用 于 其 他 强化 学 习 算 
法 。 因 此 ， 我 们 把 这 个 类 添加 到 dlgo/rl/experience.py 模 块 中 。 








代码 清单 9-13 ”经 验 缓冲 区 的 构造 函数 





class ExperienceBuffer : 
def init (self, states, actions, rewards): 


self.states = states 
self.actions = actions 
self.rewards = rewards 





在 经 验 缓 冲 区 收集 了 大 量 数据 之 后 ， 就 需要 把 它 存储 到 磁盘 上 。 这 
时 候 HDF5 文 件 格式 再 一 次 成 为 完美 的 选择 。 我 们 可 以 


在 ExperienceBuffer 类 中 添加 一 个 serialize 方 法 ， 如 代码 清单 9-14 
所 示 。 























代码 清单 9-14 将 经 验 缓冲 区 存储 到 磁盘 


class ExperienceBuffer : 


def serialize(self, hsfile): 
hsfile.create group('experience') 
hsfile['experience'].create dataset( 


'states', data=self.states) 
hsfile['experience'].create dataset( 
"actions', data=self.actions) 
hsfile['experience'].create dataset( 
'rewards', data=self.rewards) 





除了 序列 化 函数 ， 我 们 还 需要 一 个 相应 的 1oad_experience 函 数 
来 从 文件 中 读 取 经 验 缓 冲 区 ， 如 代码 清单 9-15 所 示 。 注 意 ， 每 个 数据 集 
都 需要 转换 成 一 个 np.array， 因 此 需要 把 整个 数据 集 读 入 内 存 中 。 























代码 清单 9-15 ”从 HDF5 文 件 中 还 原 一 个 ExperienceBuffer 实 例 





def 1oad_experience(h5file) : 
return ExperienceBuffer( 


states=np.array(h5file['experience '][ "states ' ] )， 
actions=np.array(h5file['experience '][ 'actions '])， 
Fewards=np.array(h5file[ 'experience '][ rewards '])) 





现在 我 们 已 经 有 了 一 个 简单 容器 ， 可 以 传递 经 验 数 据 了 ， 但 我 们 还 
需要 一 个 方法 来 辐 它 填充 代理 的 决策 数据。 这 里 有 一 个 问题 ， 即 每 当代 
理 做 出 一 次 决策 的 时 候 ， 它 并 不 能 马上 得 到 相应 的 收获 ， 而 要 等 到 棋局 
终 盘 ， 知 道 哪 一 方 获 胜 的 时 候 ， 才 能 计算 出 收获 。 要 解决 这 个 问题 ， 残 
需要 跟 躁 当前 棋局 的 所 有 决策 ， 一 直到 终 税 为 止 。 我 们 可 以 把 这 套 逻 辑 











直接 放 到 代理 的 实现 中 ， 但 这 样 做 会 把 PolicyAgent 的 实现 变 得 很 混 
乱 。 另 一 个 办 法 ， 融 是 将 它 分 离 成 一 个 单独 的 
ExperienceCollector 《经验 收集 器 ) 对 象 ， 其 唯一 职责 就 是 逐 期 记 
录 每 一 局 棋 的 信息 。 








ExperienceCollector 类 需要 实现 4 个 方法 。 





。begin_episode 和 complete_episode， 由 自我 对 弈 驱动 器 调用 ， 
表示 一 局 棋 的 开始 和 结 

。 record decision， 由 代理 调用 ， 表 示 它 所 选择 的 一 个 单独 行 

动 。 

to_buffer， 将 ExperienceCollector 至 今 为 止 收集 的 全 部 信息 

整 装 打 包 ， 返 回 一 个 ExperienceBuffer 对 象 。 自 我 对 弈 驱动 器 会 

在 每 一 轮 自我 对 弈 会 话 结束 时 调用 这 个 方法 。 





完整 的 实现 在 代码 清单 9-16 中 。 














代码 清单 9-16 ”跟踪 一 局 棋 过 程 中 的 决策 的 对 象 

















class ExperienceCollector: 
def init (self): 


self. 
self. 
self. 
self. 
self. 


states 
actions 
rewards 


current episode states 
current episode actions 


[] 
[] 
= [] 


def 


begin episode(self): 


self.current episode states 

self.current episode actions 
def record decision(self, state, action): 
self.current episode states.append(state) 
当前 期 中 ;代理 对 象 负 责 对 棋局 的 状态 和 行动 进行 编码 


self.current episode actions.append(action) 


所 = 一 一 


把 一 次 决策 存储 到 



































def complete episode(self, reward): 
num_states = len(self.current episode states) 
self.states += self.current episode states 
self.actions += self.current episode actions 
self.rewards += [reward for _ in range(num states)] <--- 将 最 


终 的 收获 分 摊 给 本 局 所 有 的 行动 





self.current episode states = [|] 
self.current episode actions = [] 


def to buffer(self): 
return ExperienceBuffer( 
states=np.array(self.states), 
actions=np.array(self.actions), <--- ExperienceCollector 使 
用 Python 列表 累积 数据 ;这 个 函数 可 以 把 它们 转换 成 NumPy 数 组 


rewards=np.array(self.rewards) 


) 





要 将 ExperienceCollector 和 集成 到 代理 中 ， 可 以 添加 一 
个 set_collector 方 法 来 告诉 代理 该 往 哪里 发 送 它 的 经 验 数据 。 接 着 
在 select_move 方 法 中 ， 代 理会 在 每 次 做 出 决策 之 后 通知 收集 器 ， 如 代 
码 清单 9-17 所 示 。 











代码 清单 9-17 将 ExperienceCollector 集 成 到 PolicyAgentr" 


























class PolicyAgent: 








def set collector(self, collector): <--- ”人 允许 自我 对 迹 驱 动 程序 给 代 班 
添加 一 个 经 验收 集 器 


self.collector = collector 














def select move(self, game_state): 





if self.collector is not None: <--- 代理 在 选择 好 一 个 动作 之 后 ， 把 
它 的 决策 通知 给 收集 器 
self.collector.record decision( 
state=board tensor， 
action=point idx 


) 
return goboard.Move.play(point) 





9.4.2 ”模拟 棋局 


情 : 
分 。 


下 一 步 吏 可 以 进行 对 灾 了 。 我 们 在 本 书 中 已 经 做 过 两 次 类 似 的 事 
第 3 章 的 bot_v_bot 沽 示 程 序 和 第 4 章 中 蒙特 卡 洛 树 搜 索 实 现 的 一 部 


现在 我 们 可 以 采用 代码 清单 9-18 中 的 simulate_game 函 数 实现 。 





























代码 清单 9-18 ”模拟 两 个 代理 之 间 的 一 局 比赛 











def simulate game(black player, white player) : 
game = GameState.new_ game(BOARD SIZE) 
agents = { 

Player.black: black player, 

Player .white: white player., 


任意 


决 。 


才能 


} 

while not game.is over(): 
next move = agents[game.next player].select move(game) 
game = game.apply move(next_ move) 

game_ result = scoring.compute game result(game) 

return game result.winner 





在 这 个 函数 里 ，black_player 和 white_player 可 以 是 Agent 类 的 
实例 。 因 此 可 以 为 正在 训练 的 PolicyAgent 任 意 挑 选 对 手 进行 对 

理论 上 对 手 也 可 以 是 一 个 人 类 棋 手 ， 但 如 果 这 么 做 的 话 ， 要 很 多 年 
收集 到 足够 的 经 验 数 据 。 此 外 ， 学 习 代 理 也 可 以 与 某 个 第 三 方 围棋 





机 器 人 开展 对 奔 ， 并 采用 第 8 章 的 GTP 框 淋 来 处 理 通信 。 


我 们 还 可 以 让 学 习 代理 与 它 的 副本 进行 对 弃 。 这 人 么 做 不 仅 最 简单 ， 


还 有 两 个 特殊 的 优势 。 


首先 ， 强 化 学 习 需 要 足够 多 的 成 功 与 失败 经 验 来 学 习 。 想 象 一 下 ， 


假如 一 个 新 手 初次 对 从 束 遇 到 了 围棋 大 师 。 新 手 的 棋艺 与 围棋 大 师 的 水 


平 相差 实在 太 大 ， 以 至 于 连 分 辨 自己 哪 步 棋 下 错 都 做 不 到 。 并 且 由 于 围 
棋 大 师 经 验 直 富 ， 即 使 犯 了 几 个 小 错 也 仍然 能 够 轻松 获胜 。 因 此 ， 双 方 
都 无 法 从 这 次 对 奔 中 学 到 东西 。 相 反 地 ， 新 手 在 开始 阶段 应 当 与 其 他 新 
手 进 行 对 决 ， 再 慢 慢 学 习 、 进 步 。 这 个 道理 同样 适用 于 强化 学 习 。 当 机 
器 人 与 自己 对 奔 时 ， 它 的 对 手 总 是 与 自己 势均力敌 。 




















其 次 ， 用 代理 进行 目 我 对 弈 ， 一 局 对 弈 可 以 得 到 两 局 的 经 验 。 由 于 
对 研 双 方 采 取 了 相同 的 诀 策 过 程 ， 因 此 胜 方 或 负 方 的 经 验 都 可 用 于 学 
习 。 强 化 学 习 需 要 巨 量 的 比赛 数据 ， 因 此 有 双 倍 的 数据 累积 速度 ， 是 一 
个 很 不 错 的 优点 。 











要 开局 自我 对 询 ， 需 要 先 构造 两 个 代理 副本 ， 并 为 其 各 分 配 一 
个 ExperienceCollector 实 例 。 由 于 两 个 代理 在 终 盘 时 得 到 的 收获 是 
相反 的 ， 因 此 我 们 必须 给 它们 分 配 独 立 的 经 验收 集 器 。 代 码 清单 9-19 展 
示 了 这 个 初始 化 步 又 。 





游戏 之 外 的 强化 学 习 





在 棋盘 游戏 中 ， 目 我 对 奔 是 非常 好 的 收集 经 验 数据 的 方法 。 而 在 其 
他 领域 ,我们 需要 故 外 构建 一 个 模拟 环境 来 运行 代理 。 例 如 ， 如 果 想 要 
用 强化 学 习 来 构建 菏 个 机 器 人 控制 系统 ， 就 需要 一 个 模拟 系统 来 全 面 地 
模拟 机 占 人 所 运行 的 物理 环境 。 


如 果 读 者 想 要 进行 更 多 、 更 深入 的 强化 学 习 实 验 ， 那 么 可 以 参看 


OpenAI 葛 技 场 。 它 提供 了 很 多 棋盘 游戏 、 电 子 游 戏 以 及 物理 模拟 的 环 
境 。 








代码 清单 9-19 生成 一 批 经 验 数 据 的 初始 化 代码 





agent1 = agent.1oad_policy agent(h5py.File(agent_filename) ) 
agent2 = agent.1oad_policy agent(h5py.File(agent_filename) ) 
collector1 = rl.ExperienceCollector() 


collector2 = rl.ExperienceCollector() 
agent1.set collector(collector1) 
agent2.set collector(collector2) 








现在 我 们 已 经 可 以 着 手 实现 模拟 自我 对 奔 棋 局 的 主 循环 了 ， 如 代码 
清单 9-20 所 示 。 在 这 个 循环 中 ，agent1 会 一 直 执 黑子 ， 而 agent2 一 直 
执 白 子 。 只 要 agent1 和 agent2 完 全 相同 ， 最 终 我 们 会 把 它们 的 经 验 数 
据 合 并 起 来 进行 训练 ， 这 样 做 没 问 题 。 但 是 ， 如 果 学 习 代 理 要 与 其 他 的 
参考 代理 进行 对 决 ， 那 么 最 好 还 是 让 它们 轮流 切换 执 黑白 子 。 在 围棋 
中 ， 由 于 黑 方 先 手 ， 且 黑 方 和 白 方 的 奔 棋 风格 会 略 有 不 同 ， 因 此 学 习 代 
理 需要 对 双方 都 进行 训练 。 











代码 清单 9-20 ”进行 一 系列 自我 对 奔 








for i in range(num games ) : 
collector1.begin episode() 
collector2.begin episode() 


game_record = simulate game(agent1, agent2) 
if game record.winner == Player.black: 
collector1.complete episode(reward=1) <--- agent1 获 胜 ， 所 以 它 得 
到 正 收获 
collector2.complete episode(reward=-1) 
else: 
collector2.complete episode(reward=1) <--- agent2 获 胜 











collector1.complete_episode(reward=-1) 


当 上 自我 对 弈 结束 时 ， 节 后 要 将 所 有 收集 到 的 经 验 合并 起 来 ， 保 存 到 
一 个 文件 中 ， 如 代码 清单 9-21 所 示 。 这 个 文件 为 训练 脚本 提供 输入 数 
据 ， 第 10 章 会 讲 到 它 的 细节 。 





代码 清单 9-21 保存 一 批 经 验 数 据 





experience = rl.combine experience([ <--- 将 两 个 代理 的 经 验 数据 合并 到 一 个 

单独 的 缓冲 区 中 
collector1, 
collector2]) 








with h5py.File(experience filename, 'w') as experience outf: <--- 保存 
到 一 个 HDF5 文 件 中 
experience.serialize(experience outf) 








人 至此， 万 事 俱 备 ， 我 们 已 经 可 以 生成 目 我 对 弈 数据 了 。 第 10 章 会 展 
示 如 何 使 用 目 我 对 穿 数 据 来 改进 机 器 人 。 


9.5 ”小结 








。 代理 是 用 于 完成 茶 个 特定 任务 的 计算 机 程序 。 例 如 ， 我 们 的 围棋 对 
列 AI 就 是 一 个 代理 ， 它 的 任务 目标 是 在 围棋 比赛 中 获得 胜利 。 

。 强化 学 习 周期 包括 如 下 过 程 : 收集 经 验 数 据 ， 用 经 验 数 据 训 练 代 
理 ， 对 更 新 的 代理 进行 评估 。 在 每 一 个 循环 周期 结束 时 ， 我 们 预期 
代理 的 能 力 会 有 小 幅 提升 。 理 想 情况 下 ， 可 以 反复 执行 这 个 周期 ， 
不 断 地 改进 代理 。 

。 要 针对 一 个 问题 进行 强化 学 习 ， 必 须 能 够 先 用 状态 、 行 动 和 收获 等 
术语 来 描述 这 个 问题 。 

。 收 玫 可 以 用 来 控制 强化 学 习 代 理 的 表现 。 如 果 代 理 得 到 的 结果 与 预 
期 相符 ， 可 以 给 予 正 收 获 ， 而 对 于 想 要 避免 的 结果 ， 可 以 给 予 负 收 





获 。 
。 宋 略 是 在 茶 个 给 定 状 态 下 所 做 出 决 全 的 规则 。 在 围棋 AI 中 ， 根 据 棋 
局 来 选择 下 一 步 动 作 的 算法 束 是 它 的 策略 。 
可 以 用 神经 网 络 来 训练 策略 ， 只 要 将 输出 向 量 看 作 所 有 可 能 行动 的 
一 个 概率 分 布 ， 然 后 从 概率 分 布 中 进行 抽样 即 可 。 
。 将 强化 学 习 应 用 到 游戏 时 ， 可 以 通过 目 我 对 于 来 收集 经 验 数据 。 目 
我 对 殊 ， 即 代理 与 它 的 副本 进行 对 决 。 





第 10 章 ”基于 全 上 略 标 上 度 的 强化 学 习 








。 使 用 集 略 梯度 学 习 来 改进 对 列表 现 。 
。 在 Keras 中 实现 策略 梯度 学 习 。 
。 策略 梯度 学 习 的 优化 微调 。 


第 9 章 展 示 了 如 何 制作 可 以 进行 目 我 对 研 的 围棋 程序 ， 并 将 结果 保 
存 为 经 验 数据 。 这 是 强化 学 习 的 前 半 部 分 工作 ， 而 下 一 步 是 要 用 经 验 数 
据 来 改进 代理 ， 让 它 能 够 获得 更 多 的 胜利 。 第 9 章 的 代理 用 神经 网 络 来 
选择 落 子 动作 。 我 们 进行 一 个 思维 实验 ， 假 设 对 神经 网 络 的 每 一 个 权重 
进行 随机 调整 。 这 样 代理 就 会 选择 不 同 的 动作 。 运 气 好 的 话 ， 这 些 新 动 
作 中 有 一 些 能 够 比 之 前 的 动作 效果 更 好 ， 而 其 他 的 动作 则 可 能 变 得 更 
差 。 综 合 起 来 ， 更 新 的 代理 可 能 比 之 前 的 版 本 稍微 强 一 点 ， 也 可 能 稍微 
弱 一 点 ， 到 底 是 变 强 还 是 变 弱 则 是 随机 的 。 





我 们 可 以 对 这 个 思路 做 出 改进 吗 ? 本 章 介绍 策略 梯度 学 习 
(gradient policy learning) 的 一 种 形式 。 策 略 梯度 方法 提供 了 一 个 机 
制 ， 可 以 估计 权重 参数 的 调整 方向 ， 让 代理 能 够 更 好 地 完成 它 的 任务 。 
在 这 里 ， 每 个 权重 的 调整 不 再 是 随机 的 ， 而 是 通过 分 析 经 验 数据 来 猜测 
是 增加 还 是 减少 特定 的 权重 效果 更 好 。 随 机 因素 在 策略 梯度 学 习 中 仍然 


有 一 席 之 地 ， 但 策略 梯度 学 习 可 以 提高 改进 的 概率 。 


回忆 第 9 章 ， 我 们 采用 随机 策略 来 做 出 决策 。 这 个 策略 是 一 个 函 
数 ， 它 会 给 代理 可 能 做 出 的 每 个 动作 赋予 一 个 概率 值 。 本 章 介 绍 的 策略 
学 习 方 法 工作 流程 如 下 % 


(1) 当代 理 获胜 时 ， 增 大 它 所 选择 过 的 动作 的 概率 。 
(2) 当代 理 失 败 时 ， 减 小 它 所 选择 过 的 动作 的 概率 。 


首先 我 们 会 讨论 一 个 简化 示例 ， 并 展示 如 何 用 这 套 技术 来 改进 集 
略 ， 获 得 更 多 的 胜利 。 接 着 我 们 会 看 到 如 何在 神经 网 络 中 使 用 梯度 下 降 
法 得 到 预期 的 改变 一 一 即 增 大 或 减 小 条 个 特定 动作 的 概率 。 最 后 我 们 会 
提供 一 些 实践 性 指导 来 帮助 管理 训练 过 程 。 


10.1 ”如 何在 随机 棋局 中 识别 更 佳 的 决策 


要 介绍 策略 学 习 ， 需 要 先 从 一 个 比 围棋 简单 得 多 的 游戏 开始 ， 让 我 
们 把 这 个 游戏 称 为 ' i (AddItUp) 。 下 面 是 它 的 游戏 规则 : 


每 一 回合 每 人 选择 一 个 1 一 5 的 数字 ; 
在 100 回 合 后 ， 每 个 人 将 他 们 所 选择 的 数字 加 起 来 ; 
总 和 最 高 的 人 获胜 。 





是 的 ， 这 个 规则 意味 着 每 个 回合 都 选择 5 就 是 最 佳 策 略 。 没 错 ， 这 
并 不 是 一 个 好 游戏 ， 但 我 们 用 它 只 是 为 了 更 方便 地 展示 策略 学 习 
(policy learning) ， 即 根据 游戏 结果 来 逐渐 学 习 并 改进 一 个 随机 策略 。 





因为 这 个 游戏 的 最 佳 策略 是 已 知 的 ， 所 以 我 们 可 以 更 清晰 地 观察 策略 学 
习 如 何 趋 癌 完 类 策 略 的 过 程 。 


“加 加 加 ?是 一 个 很 简单 的 游戏 ， 但 它 的 诸多 概念 可 以 和 围棋 之 类 更 
复杂 的 游戏 进行 对 照 。 与 围棋 一 样 ,“ 加 加 加 ”一 局 比赛 时 间 很 长 ， 而 且 
在 一 局 之 中 ， 参 赛 各 方 都 有 很 多 机 会 来 做 出 或 好 或 坏 、 影 啊 结局 的 选 
择 。 要 根据 游戏 结果 来 更 新 策略 ， 需 要 识别 对 这 局 比赛 的 输赢 贡献 最 大 
的 动作 。 这 个 问题 也 称 为 页 献 分 配 (credit assignment) 问题 ， 它 也 是 强 
化 学 习 的 核心 问题 之 一 。 本 市 展示 如 何 把 很 多 局 游戏 的 结果 均 挫 分 配 到 
一 次 次 独立 的 决策 。 在 第 12 间 中， 我 们 将 基于 这 个 技术 创造 出 更 为 复 
杂 、 健 壮 的 贡献 分 配 算法 。 








让 我 们 先 从 纯粹 的 随机 策略 开始 。 在 概率 完全 相同 的 5 个 选项 中 选 
择 1 个 《我 们 把 这 种 策略 称 为 一 致 随机 (uniform random) 策略 ) 。 这 
样 ， 在 一 局 游戏 的 全 过 程 中 ， 我 们 大 概 会 选择 20 次 数字 2、20 次 数字 3 
等 。 但 是 这 么 做 不 能 保证 一 个 数字 《如 数字 1) 恰好 被 选择 20 次 ， 它 被 
选择 的 次 数 在 每 一 局 游戏 中 都 会 有 所 变化 。 代 码 清单 10-1 展 示 了 一 个 
Python 函数 ， 用 来 模拟 这 样 的 代理 在 一 整 局 游戏 中 进行 的 全 部 选择 。 几 
10-1 展 示 了 几 个 样 例 结果 ， 读 者 也 可 以 自己 运行 几 遍 程序 ， 并 观察 结 
2 











代码 清单 10-1 随机 从 1 一 5 中 选择 一 个 数字 








import numpy as np 


counts = {1: 6，2: 6，3: 6，4: 6，5: 6} 
for i in range(166) : 
choice = np.random.choice([1，2，3，4，5]， 


p=[6.2，6.2，6.2，6.2，6.2]) 
counts[choice] += 1 
print(counts) 





虽然 代理 在 每 一 局 游戏 中 都 遵循 完全 相同 的 策略 ， 但 策略 本 号 的 随 
机 性 会 根据 不 同 游戏 发 生变 化 。 我 们 可 以 利用 这 种 变化 来 改进 策略 。 





代码 清单 10-2 展 示 了 一 个 函数 ， 它 会 模拟 一 局 完整 的 “< 加 加 加 * 游 
戏 ， 跟 踊 记 录 每 个 参与 者 所 做 出 的 决 倘 ， 最 后 计算 出 胜 者 。 


第 1 局 第 2 局 
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图 10-1 展示 了 一 个 随机 代理 进行 的 4 局 游戏 。4 个 柱状 图 分 别 表示 一 局 游戏 中 代理 对 5 个 可 能 
作 所 选择 的 次 数 。 虽 然 代 理 在 每 一 局 游戏 中 使 用 的 策略 都 相同 ， 但 是 对 于 不 同 的 游戏 ， 且 体 的 
计数 会 有 很 大 的 差别 





代码 清单 10-2 ”模拟 一 局 “加 加 加 ”游戏 





def simulate game(policy): 
"""Returns a tuple of (winning choices, losing choices)""" 
player 1 choices = {1: 6, 2: 60, 3: 0, 4: 60, 5: 6} 
player 1 total = 6 


player 2 choices = {1: 6，2: 0，3: 6，4: 0, 5: 0} 
player 2 total = 6 
for i in range(166) : 
player 1 choice = np.random.choice([1，2，3，4，5]， 
p=policy) 
player_1 choices[player 1 choice] += 1 
player_1 total += player 1 choice 
player 2 choice = np.random.choice([1, 2, 3, 4, 5]， 
p=policy) 
player 2 choices[player 2 choice] += 1 
player 2 total += player 2 choice 
if player 1 total > player 2 total: 
winner_choices = player 1 choices 
loser_ choices = player 2 choices 
else: 
winner_choices = player 2 choices 
loser_ choices = player 1 choices 
return (winner choices, loser choices) 








让 我 们 运行 几 局 游戏 并 观察 结果 。 代 码 清单 10-3 展 示 了 几 局 示例 游 
戏 。 通 冲 来 说 ， 胜 者 很 少 会 选择 数字 1， 但 也 不 是 没 可 能 。 有 时 候 胜 者 
会 更 多 地 选择 数字 5， 但 这 个 情况 也 不 是 必然 的 。 




















代码 清单 10-3 ”代码 清单 10-2 的 示例 输出 











policy = [6.2，60.2，6. 
simulate game(policy) 
0 2 223353: 15y 4: 
;21 2; .20 3 24; 4: 
simulate game(policy) 
2 .22 2» 22, 3 19, ‘4: 











: 28, 2: 23, 3: 17, 4: 
simulate game(policy) 
1135 2: 21; .3: 19., ‘4: 
;> 22 .2 20; .3: 19., 4: 
simulate game(policy) 
: 20, 2: 19, 3: 15, 4: 
19 27 23. 3: 20 :4:3 





如 果 把 代码 清单 10-3 中 所 示 的 4 局 游戏 示例 的 结果 平均 起 来 ， 就 会 
看 到 胜 者 平均 每 局 选择 数字 1 的 次 数 为 18.75， 而 败 者 选择 数字 1 的 平均 








次 数 是 22.5。 这 个 情况 比较 合理 ， 数 字 1 显 然 不 是 一 个 好 的 选择 。 虽 然 
所 有 的 游戏 都 采用 了 相同 的 策略 ， 但 胜 败 双方 选择 的 分 布 还 是 很 不 一 样 
的 ， 因 为 更 多 地 选择 数字 1 会 更 容易 导致 失败 。 





代理 在 胜局 中 与 败局 中 的 选择 送别 ， 可 以 告诉 我 们 哪些 选择 相对 来 
说 更 好 。 要 改进 策略 ， 可 以 根据 这 些 关 别 来 更 新 不 同 选择 的 概率 。 在 本 
例 中 ， 我 们 可 以 为 每 个 胜局 中 所 做 出 的 选择 增 大 一 点 点 概率 ， 并 为 每 个 
败局 中 所 做 出 的 选择 减 小 一 点 点 概率 ， 如 代码 清单 10-4 所 示 。 这 样 不 同 
选择 的 概率 分 布 就 会 逐渐 趋同 于 那些 在 胜局 中 出 现 更 多 的 选择 ， 即 我 们 
认为 的 更 好 的 选择 。 对 “加 加 加 ”游戏 来 说 ， 这 个 算法 效果 非常 不 错 。 但 
是 ， 对 围棋 这 样 更 复杂 的 游戏 ， 残 需要 一 个 更 复 森 的 系统 来 更 新 概率 
了 。 我 们 会 在 10.2 市 中 介绍 这 部 分 内 容 。 


























代码 清单 10-4 ”针对 “加 加 加 ”这 个 简单 游戏 的 策略 学 习 实现 























def normalize(policy): <--- 确保 概率 的 和 为 1， 以 保证 策略 是 一 个 合法 的 概率 分 
布 

policy = np.clip(policy, 06, 1) 

return policy / np.sum(policy) 


choices = [1, 2, 3, 4, 5] 
policy = np.array([8.2, 6.2, 060.2, 60.2,，0.2]) 
learning rate = 6.60661 <--- 控制 策略 更 新 频率 的 设置 
for i in range(num games): 

win counts, lose counts = simulate game(policy) 

for i, choice in enumerate(choices): 

net wins = win counts[choice|] - lose counts[choicel] <--- 如 果 c 

hoice 在 胜局 中 出 现 的 次 数 比 败 局 中 更 多 ， 那 么 net_wins 会 是 一 个 正 值 。 反 之 ， 它 会 是 一 个 
负 值 









































policy[i] += learning rate * net wins 
policy = normalize(policy) 
print('%d: %s' % (i, policy)) 











图 10-2 展 示 了 示例 程序 策略 的 演化 过 程 。 经 过 大 概 1 000 局 游戏 之 











后 ， 算 法 学 会 了 不 再 选择 最 差 的 动作 。 再 经 过 大 概 1 000 局 ， 它 就 或 多 
或 少 地 趋 近 完 美 策略 了 ， 即 每 局 都 选择 5。 这 个 学 习 曲 线 并 不 完全 平 
滑 ， 有 了 时候 代 理会 选择 很 多 次 数字 1， 但 仍然 获得 了 胜利 ， 这 就 会 导致 
策略 (错误 地 ) 趋向 于 选择 数字 1。 我 们 只 能 依赖 大 量 的 游戏 训练 过 程 
来 消除 这 种 错误 的 影响 。 
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图 10-2 ”对 于 我 们 的 简化 集 略 学 习 系 统 ， 本 图 展示 了 它 的 策略 如 何 演化 的 过 程 。 在 经 历 几 百 局 

游戏 之 后 ， 代 理 逐 渐 学 会 了 减少 选择 那些 最 差 的 动作 〈 即 选择 数字 1) 。 同 样 地 ， 代 理 还 渐渐 学 

会 了 更 多 地 选择 最 好 的 动作 〈 即 选择 数字 5) 。 这 两 个 选择 的 学 习 曲 线 都 有 拌 动 ， 因 为 策略 有 时 
候 会 往 错 误 的 方向 走 一 两 步 
































10.2 ”使 用 梯度 下 降 法 修改 神经 网 络 的 全 略 


学 习 “ 加 加 加 ”游戏 与 学 习 下 围棋 有 一 个 显著 的 区 别 。 在 “加 加 加 ” 游 
戏 示 例 中 ， 我 们 使 用 的 策略 完全 不 依赖 任何 游戏 状态 ， 选 择 数字 5 总 是 


一 步 好 棋 ， 而 选择 数字 1 则 总 是 坏 棋 。 而 在 围棋 中 ， 当 我 们 说 想 要 增 大 
某 个 特定 动作 的 概率 时 ， 我 们 真正 想 要 做 的 ， 其 实 是 在 相似 的 情形 下 增 
大 这 个 动作 的 概率 。 但 这 里 “相似 的 情形 ”的 概念 是 非常 模糊 的 ， 难 以 具 
体 定 义 。 所 以 我 们 只 能 依赖 神经 网 络 的 力量 ， 让 和 它 自己 去 梳理 相似 的 情 
形 到 底 是 什么 意思 。 


在 第 9 章 中 ， 当 我 们 创建 一 个 神经 网 络 策 略 时 ， 我 们 构造 了 一 个 函 
数 ， 以 棋局 状态 作为 输入 ， 并 输出 一 系列 动作 的 概率 分 布 。 对 于 经 验 数 
据 中 的 每 一 个 棋局 ， 我 们 期 望 增 大 策略 所 选择 的 动作 的 概率 (如 果 它 最 
终 导致 胜利 ) ， 或 减 小 它 的 概率 “如 果 导 致 失败 ) 。 但 是 我 们 无 法 像 
9.1 贡 中 那样 直接 强行 修改 策略 的 概率 ， 而 只 能 修改 神经 网 络 中 相应 的 
权重 ， 以 获得 期 望 的 输出 。 梯 度 下 降 法 能 够 做 到 这 一 点 。 使 用 梯度 下 降 
法 来 修改 策略 的 学 习 称 为 策略 梯度 学 习 。 这 个 思路 有 几 个 不 同 的 变 体 ， 
而 我 们 在 本 章 中 将 要 介绍 的 具体 算法 ， 称 为 驼 特 卡 治 策略 杭 度 〈Monte 
Carlo policy gradient) ， 或 REINFORCE 方 法 。 图 10-3 展 示 了 如 何 将 这 
个 算法 应 用 到 游戏 的 大 致 流程 。 





VY 
六 各 


注意 REINFORCE 是 “REward Increment = Nonnegative Factor times 
Offset Reinforcement times Characteristic Eligibility” 的 缩写 ， 而 这 个 名 字 
的 全 称 实际 上 就 是 梯度 更 新 的 公式 册 。 


动作 的 概率 分 布 。 向 目标 向 量 中 填 入 1 或 -1， 
代理 所 选择 的 动作 ”以 表示 代理 这 一 局 的 结果 
以 高 亮 显示 。 是 获胜 还 是 失败 。 


初始 的 策略 网 络 。 





001 |10.01 |0.01 | 0.23 | 0.01 0 0 0 -1 0 





0.01 | 0.29 | 0.01 | 0.01 | 0.01 0 0 0 0 0 


经 验 数 据 的 棋局 。 












0.08 | 0.01 | 0.01 | 0.01 | 0.01 0 0 0 0 0 


0.01 | 0.01 | 0.01| 0.01 | 0.19 0 0 0 0 0 






































0.01 | 0.01 | 0.01 | 0.01 | 0.01 0 0 0 0 0 














概率 分 布 与 目标 向 量 的 差 值 代表 着 将 要 跟随 的 梯度 。 
然后 就 可 以 使 用 梯度 下 降 法 来 更 新 网 络 权重 了 。 
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当 一 次 批量 更 新 完成 时 ， 策 略 网 络 有 了 新 的 现在 ， 所 选择 的 动作 的 概率 略微 下 降 了 。 
权重 。 如 果 向 它 输入 一 个 相同 《或 相似 ) 的 《如 果 代 理 赢得 了 棋局 ， 则 这 个 概率 会 
棋局 ， 将 会 得 到 一 个 新 的 概率 分 布 。 略微 上 升 。) 








图 10-3 ”策略 梯度 学 习 的 流程 图 。 我 们 从 棋局 棋谱 与 结果 的 数据 集合 开始 。 对 于 代理 所 选择 的 
每 一 个 动作 ， 我 们 期 望 增 大 它 的 选择 概率 〈 如 果 最 终 胜 利 ) 或 减 小 它 的 概率 《如 果 最 终 失 
败 ) 。 梯 度 下 降 法 负责 处 理 更 新 策略 权重 的 操作 。 每 完成 一 轮 梯 度 下 降 之 后 ， 概 率 分 布 会 朝 着 
期 望 的 方向 侦 移 一 点 























证 我 们 回顾 一 下 第 5 草 采 用 梯度 下 降 法 的 监督 学 习 的 工作 机 制 。 我 
们 选择 一 个 损失 函数 ， 用 来 表示 函数 与 训练 数据 之 间 的 差 跑 ， 并 计算 损 
失 阔 数 的 梯度 。 我 们 的 目标 是 让 损失 函数 值 变 得 更 小 ， 即 让 函数 与 训练 
数据 更 加 适 配 。 梯 度 下 降 法 可 以 逐渐 地 向 着 损失 函数 的 标 度 方 辐 更 新 权 
重 ， 因 此 提供 了 极 小 化 损失 函数 的 机 制 。 标 度 能 够 告诉 我 们 每 个 权重 应 
当 疝 哪个 方 回调 整 才能 减 小 损失 函数 。 


在 策略 学 习 中 ， 我 们 期 望 找 到 每 个 权重 的 调整 方向 ， 让 策略 倾 癌 于 
(或 者 远离 》 茶 个 特定 的 动作 。 我 们 可 以 构造 一 个 损失 函数 ， 让 它 的 梯 


度 带 有 这 个 特性 。 一 旦 有 了 这 个 函数 ， 就 可 以 利用 Keras 框 染 所 提供 的 
丰富 灵活 的 基础 染 构 来 迅速 地 更 新 策略 网 络 。 





回忆 一 下 第 7 章 中 实现 的 监督 学 习 算 法 。 对 每 一 个 游戏 状态 ， 我 们 
都 可 以 知道 在 这 个 棋局 中 人 类 棋 手 所 做 出 的 选择 。 因 此 我 们 创建 了 一 个 
回 量 ， 用 0 来 表示 每 一 个 棋盘 位 置 ， 用 1 来 表示 棋 手 所 选择 的 动作 。 损 失 
函数 度量 了 网 络 预 测 的 概率 分 布 与 所 选 动 作 的 差距 ， 而 它 的 杨 度 则 指向 
减 小 这 个 差距 所 需要 遵循 的 方向 。 当 一 次 批量 更 新 完成 时 ， 棋 手 所 选 的 
相应 动作 的 预测 概率 会 略微 增 大 。 





这 正 是 我 们 想 要 达到 的 效果 : 增 大 茶 个 特定 动作 的 概率 。 在 代理 获 
胜 的 那些 棋局 中 ， 可 以 把 代理 所 选择 的 动作 当 作 人 类 棋 手 在 真实 棋谱 中 
选择 的 动作 来 处 理 ， 并 创建 完全 一 样 的 目标 癌 量 。 然 后 ， 就 可 以 用 
Keras 的 fit 消 数 来 更 新 策略 ， 问 正确 的 方 同 偏 移 。 








那么 ， 如 果 是 失败 的 棋局 呢 ? 这 时 候 我 们 希望 减 小 所 选 动作 的 概 
率 ， 但 是 并 不 知道 实际 的 最 佳 动 作 。 我 们 希望 这 里 的 更 新 效果 最 好 能 够 
与 获胜 棋局 相反 。 





实际 上 ， 如 果 训 练 所 采用 的 损失 函数 是 交叉 业 损 失 函 数 ， 那 么 只 要 
在 目标 癌 量 中 本 该 填 入 1 的 地 方 填 入 -1 就 可 以 了 。 这 样 做 会 改变 损失 函 
数 梯度 的 正 负 值 ， 而 权重 则 会 正好 同 相 反 的 方 问 偶 移 ， 因 此 能 够 减 小 目 
标 动 作 的 概率 。 


但 要 利用 这 个 小 技巧 ， 束 必须 使 用 交 文 燃 损 失 函 数 ， 其 他 的 损失 函 
数 ， 例 如 均 方 误差 损失 函数 ， 束 达 不 到 这 个 效果 了 。 在 第 7 章 中 ， 我 们 


之 所 以 选择 交叉 糯 损 失 函 数 ， 是 因为 在 固定 数量 的 选项 中 做 出 最 佳 选择 
的 问题 中 ， 它 是 最 高 效 的 方法 。 而 在 这 里 我 们 选择 它 ， 则 是 为 了 男 一 个 
目的 : 将 目标 向 量 的 1 切换 为 -1， 进 而 切换 梯度 的 方 回 。 





回顾 一 下 我 们 的 经 验 数据 的 结构 ， 它 包含 3 个 并 行 的 数组 : 





。 states[i] 表 示 在 自我 对 府 过 程 中 过 到 的 一 个 特定 的 棋局 ; 
。 actions[i] 表 示 在 这 个 特定 棋局 下 ， 代 理 所 选 择 的 动作 ; 
。 rewards[i] 表 示 如 末代 理 最 终 获 得 胜利 ， 其 值 为 1， 否 则 为 -1。 


代码 清单 10-5 实 现 了 一 个 prepare_experience_data 消 数 ， 它 将 
经 验 数 据 绥 冲 区 打包 成 一 个 目标 数组 ， 以 适 配 Keras 的 fit 疯 数 。 














代码 清单 10-5 ”将 经 验 数 据 编码 为 一 个 目标 向 量 














def prepare experience data(experience, board width, board height): 
experience size = experience.actions.shape[6] 
target vectors = np.zeros((experience size, board width * board height 


) ) 
for i in range(experience size): 
action = experience.actions[i] 
reward = experience.rewards[i] 
target vectors[i]j[action] = reward 
return target vectors 





代码 清单 10-6 展 示 了 如 何在 PolicyAgent 类 中 实现 一 个 训练 函 
数 train。 














i 








代码 清单 10-6 ”利用 策略 梯度 学 习 从 经 验 数据 中 训练 一 个 代理 























class PolicyAgent(Agent ) : 


def train(self, experience, lr, clipnorm, batch size): <--- lr、 cl 
ipnorm， 以 及 batch_size 这 3 个 参数 可 以 精细 地 调节 训练 过 程 。 我 们 会 在 后 文 详细 介绍 它们 

















self. model.compile( <--- compile 方 法 给 模型 分 配 一 个 优化 器 。 在 本 例 
中 ， 它 分 配 的 是 一 个 SGD 优 化 器 
loss="'categorical crossentropy', 
optimizer=SGD(lr=lr, clipnorm=clipnorm)) 


target vectors = prepare experience _data( 
experience, 
self. encoder.board width, 
self. encoder.board height) 


self. model .fit( 
experience.states, target vectors, 
batch size=batch size, 
epochs=1) 





除 经 验 数据 缓冲 区 之 外 ， 这 个 train 函 数 还 接收 3 个 参数 ， 可 以 修 
改 优化 器 的 行为 : 





e。 1r， 即 学 习 率 〈learning rate) ， 控 制 权 重 在 每 一 步 修 改 时 移动 的 
距离 ; 

。 clLipnorm， 提 供 了 一 个 硬性 上 限 ， 限 制 权 重 在 每 个 独立 步骤 中 所 
移动 的 距离 的 最 大 值 ; 

。batch_size， 我 们 可 以 将 经 验 数据 中 的 多 个 动作 合并 起 来 进行 一 
次 批量 权重 更 新 ， 而 这 个 参数 代表 批量 的 数目 。 








在 朱 略 梯度 学 习 中 ， 可 能 需要 对 这 几 个 参数 进行 微调 ， 以 得 到 更 好 
的 结果 。 在 10.3 市 中 ， 我 们 会 提供 几 个 建议 ， 以 帮助 我 们 更 容易 地 找到 


合适 的 设置 。 


在 第 7 章 中 ， 我 们 使 用 过 Adadelta 和 Adagrad 优 化 器 ， 它 们 能 够 在 学 
习 过 程 中 自动 调整 学 习 率 。 遗 憾 的 是 ， 它 们 所 依赖 的 先决 条 件 ， 在 策略 
梯度 学 习 中 并 不 成 立 。 所 以 这 里 我 们 应 当 使 用 基本 的 随机 梯度 下 降 优化 
器 ， 并 手动 设置 学 习 率 。 但 需要 强调 的 是 ， 在 95% 的 情况 下 ，Adadelta 


或 Adagrad 是 更 好 的 选择 ， 因 为 采用 和 它们， 训练 速度 更 快 ， 令 人 头痛 的 
问题 也 更 少 。 但 是 在 东 些 特殊 情况 下 ， 还 是 需要 退回 到 基本 的 SGD， 所 
以 ， 了 解 如 何 手动 设置 学 习 率 也 是 非常 有 用 的 知识 。 











还 要 注意 ， 我 们 对 经 验 缓冲 区 只 运行 一 个 达 代 周期 的 训练 过 程 。 这 
和 第 7 草 并 不 相同 ， 那 时 候 我 们 会 用 相同 的 训练 集运 行 好 几 个 欠 代 周期 
的 训练 过 程 。 关 键 的 区 别 在 于 第 7 章 使 用 的 训练 数据 是 已 知 的 民 好 数 
据 。 那 个 数据 集中 的 每 一 个 动作 ， 都 是 经 验 丰富 的 人 类 棋 手 在 真实 棋局 
中 所 进行 的 选择 。 而 现在 我 们 使 用 的 目 我 对 弈 数据 ， 棋 局 的 结束 是 部 分 
随机 的 ， 并 且 无 从 得 知 哪些 动作 对 最 终 的 胜利 有 所 页 献 。 我 们 只 能 期 街 
巨大 的 棋局 数量 能 够 消除 误差 。 所 以 在 这 种 情况 下 ， 我 们 不 能 重复 使 用 
任何 一 个 棋谱 ， 否 则 会 让 其 中 包含 的 错误 数据 效果 加 倍 。 

幸运 的 是 ， 在 强化 学 习 中 我 们 拥有 用 之 不 尽 的 训练 数据 。 所 以 我 们 


不 再 对 相同 的 训练 数据 运行 多 个 迭代 周期 的 训练 过 程 ， 而 只 要 再 运行 一 
批 自 我 对 至 棋局 ， 生 成 一 个 新 的 数据 集 即 可 。 








现在 我 们 已 经 有 了 完整 的 train 函 数 ， 代 码 清单 10-7 展 示 了 一 个 训 
练 脚本 。 读 者 可 以 在 GitHub 上 找到 完整 的 脚本 文件 train_pg.py。 这 个 脚 
本 接收 第 9 章 中 的 上 自我 对 奔 脚 本 生成 的 经 验 数据 文件 。 




















代码 清单 10-7 ”使 用 预先 生成 的 经 验 数 据 进行 训练 














learning agent = agent.1oad_policy _ agent(h5py.File(learning agent filename 





for exp_filename in experience files: <--- 训练 数据 可 能 无 法 一 次 全 部 加 载 到 
内 存 中 。 这 个 脚本 的 实现 可 以 从 多 个 文件 中 读 入 数据 ， 并 且 每 次 只 读 入 一 部 分 

exp_buffer = Prl.1oad_experience(h5py.File(exp_filename)) 

learning agent.train( 














exp_buffer， 
lr=learning_rate, 
clipnorm=clipnorm, 
batch size=batch size) 
with h5py.File(updated agent filename, 'w') as updated agent outf: 
learning agent.serialize(updated agent_outf ) 








10.3 ”使 用 上 自我 对 罕 进 行 训练 的 几 个 小 技巧 


训练 调 参 的 过 程 可 能 会 很 艰难 ， 并 且 由 于 大 型 神经 网 络 的 训练 速度 
通常 都 很 慢 ， 往 往 需要 漫长 的 等 竺 才能 检验 结束 。 因 此 应 当做 好 不 断 试 
错 或 者 前 几 趟 都 遇 到 问题 的 准备 。 本 节 将 提供 几 个 应 对 漫长 训练 过 程 的 
小 技巧 。 首 先 我 们 详细 阐述 如 何 测试 和 验证 机 器 人 的 进展 ， 接 着 我 们 深 
入 讨论 几 个 影响 训练 过 程 的 参数 的 微调 细 市 。 














强化 学 习 非 常 缓慢 : 如果 训练 的 是 围棋 AI， 可 能 需要 上 万 局 自我 对 
歼 才 能 见 到 明显 的 进展 。 我 们 建议 先 从 更 小 的 棋盘 开始 训练 ， 例 如 9x9 
或 5x5 棋 盘 。 在 更 小 的 棋盘 上 ， 棋 局 更 短 ， 因 此 可 以 更 快 地 生成 目 我 对 
春 棋 局 数据 ;并且 小 棋盘 的 棋局 复杂 度 本 身 也 低 ， 只 需要 相对 较 少 的 训 
练 数据 ， 束 能 见 到 进展 。 这 样 可 以 更 快 地 测试 代码 、 和 做 调 训练 的 过 程 。 
等 到 对 自己 的 代码 有 足够 的 信心 之 后 ， 再 处 理 更 大 尺寸 的 棋盘 。 





10.3.1 评估 学 习 的 进展 


在 围棋 这 样 复杂 上 度 很 蜗 的 游戏 中 ， 强 化 学 习 可 能 会 花费 非常 长 的 时 
间 一 一 尤其 是 在 无 法 采用 专用 人 硬件 的 时 候 。 花 费 了 数 天 时 间 来 训练 算 
法 ， 结 果 发 现 程序 在 很 久之 前 就 已 经 出 错 ， 没 什么 事 比 这 更 令 人 泪 丧 











了 。 我 们 建议 读者 定期 检查 学 习 代 理 的 学 习 进 度 。 要 检查 学 习 进 度 ， 可 
以 模拟 更 多 的 对 殊 。evel_pg_bot.py 脚 本 可 以 让 机 器 人 的 两 个 不 同 版 本 进 
行 对 奔 。 代 码 清单 10-8 展 示 了 它 的 用 法 。 




















代码 清单 10-8 用 于 比较 两 个 代理 的 强度 的 脚本 


wins = 6 这 个 脚本 从 agent1 的 视角 来 跟踪 记录 胜 负 
losses = 6 
color1 = Player.black <--- color1 是 agent1 的 执 子 颜 色 ，agent2 会 选择 另 一 方 
执 子 
for i in range(num games): 
print('Simulating game %d/%d...' % (i + 1, num_ games)) 
if color1 == Player.black: 
black_player, white player = agent1，agent2 
else: 
white_ player, black player = agent1，agent2 
game_record = simulate game(black player, white player) 
if game record.winner == color1: 
wins += 1 
else: 
losses += 1 
color1 = color1.other <--- 每 一 局 比赛 之 后 都 要 交换 执 子 方 ， 这 样 
可 以 避免 某 个 代理 更 擅长 某 一 方 的 情况 


print('Agent 1 record: %d/%d' % (wins, wins + losses)) 


























每 完成 一 个 批 次 的 训练 之 后 ， 可 以 用 更 新 的 代理 来 与 之 前 的 代理 进 
行 对 穿 ， 以 确保 更 新 的 代理 确实 有 所 进步 ， 或 者 至 少 没有 变 差 。 


10.3.2 ”衡量 强度 的 细微 益 别 





经 过 数 千 局 的 目 我 对 硬 训 练 之 后 ， 机 器 人 可 能 比 前 一 个 版 本 的 获胜 
概率 仅仅 提高 几 个 百分点 。 衡 量 这 么 小 的 差别 是 相当 困难 的 。 假 设 已 经 
完成 了 一 轮训 练 ， 要 进行 评估 ， 我 们 使 用 更 新 的 机 器 人 与 前 一 版 进行 
100 局 对 询 ， 而 新 机 器 人 获胜 了 53 局 。 那 么 新 的 机 器 人 是 否 真 的 比 之 前 











强 3%， 或 者 仅仅 是 运气 而 已 ? 我 们 需要 一 套 方 法 来 决定 是 噩 有 足够 多 
的 数据 来 准确 地 评估 机 器 人 的 强度 。 


想象 一 下 ， 假 如 训练 什么 事 都 没 做 ， 更 新 的 机 人 妖 人 将 会 与 前 一 版 完 
全 相同 。 那 么 相同 的 机 器 人 至 少 获胜 53 局 的 概率 是 多 少 呢 ? 统计 学 家 用 
一 个 名 为 二 项 式 检 验 (binomial test) 的 公式 来 计算 这 个 概率 。Python 包 
scipy 提 供 了 一 个 方便 的 二 项 式 检验 实现 : 
>>> from scipy.stats import binom test 


>>> binom _ test(53，166，6.5) 
6.61729941358925255 


在 这 段 代码 中 : 


。 53 代 表 我 们 观察 到 的 获胜 局 数 ; 

。 100 代 表 我 们 模拟 的 棋局 总 数 ; 

。 0.5 代 表 我 们 的 机 器 人 在 与 它 相同 的 对 手 进 行 对 蛮 时 顾 得 一 局 棋 的 
概率 。 








二 项 式 检 验 函 数 得 出 的 值 约 为 61.7%。 也 就 是 说 ， 如 果 机 器 人 真 的 
和 它 的 对 手 完 全 一 致 ， 那 么 它 仍 然 有 61.7% 的 机 会 获得 53 局 或 更 多 的 胜 
局 。 这 个 概率 值 有 时 候 称 为 p 值 (p-value) 。 这 并 不 代表 机 器 人 有 
61.7% 的 概率 什么 都 没 学 到 一 一 它 只 是 意味 着 我 们 没有 足够 的 证 据 来 断 
定 这 一 点 。 如 果 我 们 想 要 足够 的 信心 判定 机 器 人 有 所 进步 ， 就 得 运行 更 
多 的 模拟 棋局 。 





实际 上 ， 要 可 靠 地 衡量 如 此 小 的 差别 ， 需 要 大 量 的 模拟 棋局 。 如 果 
运行 1000 局 棋局 ， 并 获得 530 局 胜利 ， 二 项 式 检验 得 出 的 p 值 会 是 6% 左 


右 。 在 做 出 一 个 决策 之 前 ， 寻 求 低 于 5% 的 p 值 是 一 个 通用 的 准则 。 但 是 
这 里 的 准 值 59% 本 吴 并 没有 什么 特别 神奇 的 地 方 ， 相 反 地 ， 应 当 把 p 值 看 
作 一 个 参考 值 ， 它 能 够 提示 人 们 去 怀疑 机 器 人 的 获胜 结果 ， 而 最 终 判 断 


还 是 需要 靠 上 自己 。 





10.3.3 SGD 优化 絮 的 微调 


有 有 几 个 参数 可 能 影响 SGD 优 化 器 的 效果 。 总 的 来 说 ， 参数 往往 
古 运 行 速度 与 准确 率 之 间 的 折 中 结果 。 相 比 于 强化 学 习 ， 策 略 梯度 学 习 
通常 对 准确 率 更 为 敏感 ， 所 以 需要 适当 地 设置 这 些 参数 。 








第 一 个 必须 设置 的 参数 是 学 习 率 。 要 设置 适当 的 学 习 率 ， 需 要 先 了 
解 设置 错误 的 学 习 率 会 带 来 哪些 问题 。 ee 
参考 。 这 个 图 展示 了 一 个 假想 的 目标 函数 ， 需 要 将 它 极 小 化 。 本 图 所 展 
ee 
到 一 维 ， 以 强调 几 个 特别 的 点 。 在 现实 中 ， 需 要 优化 的 目标 函数 往往 有 
数 干 个 维度 。 





6 的 当前 值 在 这 里 。 


J(0) 
(目标 ) 





EH 我 们 想 要 到 达 这 里 。 


9 (可 学 习 的 模型 权重 ) 














图 10-4 ”图 中 有 一 个 假想 的 目标 函数 ， 它 的 值 随 着 可 学 习 权重 而 变化 。 我 们 的 目标 是 把 9〈 即 希 
背 字 母 西塔 ) 函数 的 值 从 当前 位 置 移 动 到 它 的 极 小 值 。 可 以 把 梯度 下 降 想 象 成 权重 滚动 下 坡 的 


过 程 


























在 第 5 章 中 ， 我 们 尝试 优化 一 个 损失 冰 数 ， 它 衡量 的 是 预测 结 末 与 
己 知 的 正确 样 例 之 间 的 差距 。 而 在 本 例 中 ， 优 化 的 目标 函数 则 是 机 费 人 
的 获胜 率 。《 从 技术 上 讲 ， 在 讨论 获胜 率 的 时 候 ， 我 们 实际 上 是 希望 让 
目标 极 大 化 。 不 过 它 和 极 小 化 的 机 理 是 相同 的 ， 只 需 把 方向 对 调 即 
可 ) 。 与 损失 函数 不 同 ， 获 胜率 无 法 直接 计算 得 出 ， 不 过 我 们 可 以 通过 
目 我 对 穿 数 据 来 估计 它 的 梯度 。 在 图 10-4 中 ，x 轴 代表 网 络 中 的 菜 个 权 
重 ， 而 y 轴 则 代表 目标 函数 的 值 如 何 随 痢 这 个 权重 变化 。 图 中 标记 的 点 
表示 当前 的 网 络 状态 。 在 理想 的 情形 下 ， 可 以 想象 到 标记 点 能 够 随 着 梯 
度 下 降 滚 动 下 坡 ， 最 终 停 留 在 谷底 位 置 。 

















奉 是 学 习 率 太 小 ， 优 化 器 仍然 能 够 回 正确 的 方 辐 移动 ， 但 会 需要 许 
多 轮训 练 才 能 达到 极 小 值 ， 如 图 10-5 所 示 。 因 此 ， 考 虑 到 效率 ， 我 们 期 
望 学 习 率 尽 可 能 大 ， 只 要 别 出 问 题 就 行 。 


J(0) 
(目标 ) 


如 果 学 习 率 太 小 ， 
需要 很 多 轮训 练 
才能 到 达 极 小 值 。 
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图 10-5 ”在 本 例 中 ， 学 习 率 太 小 了 ， 因 此 权重 需要 很 多 次 更 新 才能 达到 最 小 值 

















如 果 学 习 率 设置 得 稍微 大 一 点 儿 ， 目 标 函 数 就 可 能 无 法 得 到 最 充分 
的 优化 了 。 但 下 一 次 优化 时 ， 梯 度 仍然 可 以 指 癌 正确 的 方向 ， 所 以 它 可 
能 会 来 回 跳动 一 段 时 间 ， 如 图 10-6 所 示 。 





如 果 学 习 率 太 大 ， 它 
可 能 会 在 真实 极 小 值 
附近 来 回 跳动 。 
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图 10-6 ”这 里 ， 学 习 率 太 大 导致 权重 越过 了 目标 值 。 在 下 一 轮 学 习 中 ， 梯 度 会 指向 相反 的 方 
向 ， 但 是 仍然 有 可 能 再 次 越过 目标 值 。 这 就 可 能 导致 权重 值 在 真实 极 小 值 附近 反复 跳动 





























在 本 例 所 示 的 目标 函数 中 ， 如 果 越 过 目标 过 远 ， 权 重 就 会 最 终 落 入 
右 侧 的 平坦 区 域 。 图 10-7 展 示 了 这 种 局 面 的 发 生 过 程 。 在 那个 区 域 里 ， 
梯度 接近 于 零 ， 因 此 在 之 后 的 权重 调整 中 ， 梯 度 下 降 法 无 法 再 提供 正确 
的 方向 指示 。 这 样 目标 函数 就 可 能 永久 停滞 在 这 个 区 域 中 。 这 并 不 只 是 
一 个 理论 性 的 可 能 ， 实 际 上 ， 在 使 用 第 6 章 介绍 的 线性 整流 函数 网 络 
中 ， 这 种 平坦 区 域 非常 常见 。 深 度 学 习 工 程 师 有 了 时候 会 把 这 种 问题 称 为 
死 ReLU〈dead ReLU) 。 它 们 称 为 * 死 ”， 是 因为 最 终 陷 于 总 返回 0 值 的 
死 锁 情况 ， 再 也 无 法 对 整个 学 习 过 程 有 所 贡献 了 。 














.JJ(O) 
(目标 ) 






如 果 学 习 率 大 得 太 多 ， 
权重 可 能 会 停滞 在 平坦 
区 域 。 
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图 10-7 ”在 这 个 例子 中 ， 学 习 率 过 于 巨大 ， 以 至 于 权重 直接 跳跃 到 了 右 侧 的 平坦 区 域 。 那 个 区 
域 的 梯度 是 0(， 所 以 优化 器 无 法 再 探知 应 该 走向 何方 。 权 重 可 能 会 永久 性 地 停滞 在 那里 。 这 个 问 
题 在 采用 线性 整流 函数 的 神经 网 络 中 很 利 见 






































上 述 这 两 种 情况 都 是 在 正确 的 方向 上 跳跃 太 远 可 能 导致 的 问题 。 在 
打上 略 梯度 学 习 中 ， 由 于 无 法 确定 所 要 跟踪 的 标 有 度 ， 问 题 就 显得 更 加 惠 手 
了 。 也 许 在 宇宙 的 茶 个 角落 ， 存 在 一 个 理论 函数 ， 它 能 够 描述 代理 棋 力 
与 朱 略 网 络 权 重 的 关联 ， 但 我 们 无 法 写 下 这 个 函数 ， 而 最 多 只 能 从 训练 
数据 中 估计 它 的 梯度 而 已 。 这 种 估计 充 满 了 噪声 ， 有 时 候 甚至 会 指 同 错 
误 的 方向 。《 回 顾 10.1 节 中 的 图 10-2， 选 择 最 佳 动作 的 概率 经 常会 往 错 
误 的 方 同 走 一 小 步 。 而 围棋 或 类 似 复杂 度 的 游戏 的 自我 对 从 数据 ， 往 往 
比 那 种 数据 包含 更 多 的 噪声 。) 











如 果 在 错误 的 方向 上 走 得 太 远 ， 那 么 权重 可 能 会 售 沛 在 图 中 左 侧 的 
另 一 个 波 谷 处 。 图 10-8 展 示 了 这 种 可 能 性 是 如 何 发 生 的 。 这 个 现象 称 为 
踪 乓 : 网 络 已 经 学 会 了 数据 集 的 茶 项 属性 ， 接 着 叉 突 然 丢 卸 了 。 





J(0) 
(目标 ) 


a 


如 果 梯 度 的 估计 是 
错误 的 ， 权 重 可 能 
会 移 向 错误 的 方向 。 
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图 10-8 在 策略 梯度 学 习 中 ， 需 要 从 噪声 很 多 的 信号 里 估计 出 真正 的 梯度 。 偶 尔 会 有 一 次 估计 
指向 错误 的 方向 。 如 果 在 错误 的 方向 上 走 得 太 远 ， 权 重 可 能 会 跳出 图 中 中 部 极 小 值 附 近 的 区 
域 ， 而 落 到 左 侧 的 另 一 个 局 部 极 小 值 附近 ， 并 且 可 能 会 在 那里 停 沛 一 段 时 间 



































我 们 也 可 以 想 办 法 去 改进 梯度 的 估计 。 回 顾 一 下 ， 随 机 梯度 下 降 是 
可 以 批量 操作 的 : 优化 器 每 次 读 取 训 练 集 的 一 个 小 的 子 集 ， 使 用 其 中 的 
数据 点 来 计算 梯度 ， 然 后 更 新 所 有 权重 。 采 用 更 大 的 批 次 容量 ， 能 够 更 
容易 地 消除 误差 。Keras 库 的 默认 批 次 大 小 是 32， 这 个 值 对 很 多 监督 学 
习 问 题 都 是 很 好 的 。 但 对 策略 学 习 来 说 ， 建 议 把 它 设 置 得 很 大 : 可 以 党 
试 从 1 024 或 甚至 2 048 开 始 。 











最 后 ， 策 略 梯度 学 习 还 很 容易 停滞 于 局 部 最 优 的 情况 下 一 一 即 任何 
增 量 的 改动 都 只 会 让 机 器 人 变 得 更 弱 。 有 时 候 我 们 可 以 在 自我 对 穿 中 引 
入 一 些 额外 的 随机 性 来 ， 以 跳出 局 部 最 优 。 要 做 到 这 一 点 ， 可 以 在 极 少 
数 情况 下 《例如 在 196 或 0.5% 的 回合 中 ) ， 代 理 抛 莽 朱 略 的 决策， 而 选 
择 一 个 完全 随机 的 动作 。 








从 实践 上 上 说， 策略 梯度 学 习 的 流程 可 以 如 下 。 





(1) 生成 一 大 批 上 自我 对 弈 棋局 〈 只 要 内 存放 得 下 ， 越 多 越 好 ) 。 


(2) 进行 训练 。 
(3) 将 更 新 的 机 器 人 与 前 一 个 版 本 进行 对 奔 检 验 。 


(4) 如果 新 机 器 人 明显 更 强 ， 就 切换 到 这 个 新 版 本 。 





(5) 如 果 新 机 器 人 与 之 前 相 比 强度 差不多 ， 就 生成 更 多 的 棋局 ， 
再 次 训练 。 


(6) 如 果 新 机 器 人 明显 更 弱 ， 束 需要 调整 优化 右 的 设置 ， 重 新 进 
行 训练 。 


优化 堪 的 微调 看 似 与 罕 针 引线 一 样 复 杂 而 难以 掌握 ， 但 是 随 着 不 断 
地 练习 与 实验 ， 读 者 一 定 能 把 握 它 的 度 。 表 10-1 总 结 了 本 节 中 讲 到 的 几 
个 问题 及 解决 办 法 。 











表 10-1 策略 学 习 问 题解 决 表 


解决 办 法 


学 习 率 下 增 大 学 习 率 
获胜 率 停滞 在 5096 Re 
滞 在 一 个 局 部 最 优 值 上 了 | 给 自我 对 弈 增加 更 多 的 随机 性 

















减 小 学 习 率 
学 习 跳 跃 过 头 了 pn 
获胜 率 明显 降低 增 大 批 次 容量 


错误 的 梯度 估计 机 
收集 更 多 的 自我 对 穿 棋局 














10.4 小 结 


[1] 


打上 略 学 习 是 一 种 从 经 验 数 据 中 更 新 集 略 的 强化 学 习 技术 。 在 我 们 的 
棋 类 游戏 示例 中 ， 这 意味 着 根据 代理 的 棋局 胜 负 结果 来 更 新 机 器 人 
傈 上 略 ， 让 它 能 够 选择 更 好 的 动作 。 

策略 学 习 的 其 中 一 种 形式 是 增 大 胜局 中 所 有 动作 的 选择 概率 ， 并 减 
小 败局 中 所 有 动作 的 选择 概率 。 经 过 数 千 局 之 后 ， 这 个 算法 可 以 逐 
步 地 更 新 策略 ， 让 它 获得 更 多 的 胜利 。 这 种 算法 称 为 策略 梯度 学 
司 。 

交叉 燃 损 失 是 为 了 从 固定 数量 的 选项 中 选择 一 项 的 场景 而 设计 的 损 
失 阔 数 。 在 第 7 章 中， 我 们 使 用 交 文 焙 损 失 函 数 来 预测 人 类 棋 手 在 
茶 个 给 定 棋局 状态 下 会 采取 哪个 动作 。 交 叉 烂 损失 函数 也 可 以 应 用 
到 策略 梯度 学 习 中 。 

Keras 框 漆 可 以 用 来 高 效 地 实现 策略 梯度 学 习 算 法 。 只 要 将 经 验 数 
据 进 行 正 确 的 封装 ， 并 选用 交叉 精 损 失 函 数 ， 就 可 以 开始 训练 了 。 
打上 略 梯度 训练 可 能 需要 手动 微调 优化 费 的 设置 。 与 监督 学 习 相 比 ， 
策略 梯度 学 习 可 能 需要 更 小 的 学 习 率 ， 以 及 更 大 的 批 次 容量 。 











收获 增 量 = 非 负 因 子 x 抵 消 强化 x 特 征 合格 度 。 一 一 译 者 注 


第 11 草 ”基于 价值 评估 方法 的 强化 学 习 


本 章 主 要 内 容 
。 使 用 Q 学 习 算法 构建 一 个 能 够 自我 改进 的 游戏 AI。 
。 使 用 Keras 定 义 多 输入 神经 网 络 ， 并 进行 训练 。 
。 使 用 Keras 构 建 并 训练 一 个 Q 学 习 代 理 。 


你 有 没有 上 听 过 国际 象棋 或 围棋 联赛 中 高 阶 棋 手 的 讲解 ?“ 现 在 黑 方 
已 经 远 远 落后 了 ”， 或 者 “到 目前 为 止 ， 局 面 对 白 方略 微 有 利 ”， 我 们 常 
常 可 以 看 到 这 样 的 评论 。 那 么 ， 在 一 个 策略 游戏 的 盘 中 阶段 ，“ 领 
先 ” 或 “落后 ”到 底 是 什么 意思 呢 ? 与 棒球 之 类 的 比赛 不 同 ， 棋 局 中 并 没 
有 一 个 实时 播报 的 得 分 。 实 际 上 ， 评 论 员 的 意思 是 指 当前 的 棋局 对 其 中 
一 方 更 有 利 。 如 果 要 更 精确 地 定义 ， 我 们 可 以 党 试 一 个 思维 实验 : 找到 
一 百 对 实力 相当 的 棋 手 ， 让 每 对 棋 手 都 从 这 个 棋局 开始 ， 继 续 进 行 对 
弈 。 如 果 黑 方 获得 更 多 的 胜利 〈 如 100 局 中 黑 方 胜 了 55 局 ) ， 我 们 就 可 
以 说 这 个 棋局 对 黑 方 略微 有 利 。 











当然 ， 评 论 员 在 讲解 时 并 不 会 进行 这 个 思维 实验 。 实 际 上 ， 他 们 和 赁 
借 历 经 数 千 局 比赛 而 建立 的 直觉 来 判断 棋局 的 走势 。 本 章 将 展示 如 何 训 
练 一 个 计算 机 棋 手 进行 与 之 类 似 的 判断 ， 并 且 计 算 机 学 习 这 种 判断 的 方 
式 也 和 人 类 相似 ， 下 非常 非常 多 的 棋 。 





本 章 介 绍 Q 学 习 (Q-learning) 算法 。Q 学 习 是 一 种 训练 强化 学 习 代 
理 的 方法 ， 可 以 让 代理 学 会 如 何 预测 未 来 的 收获 。 在 棋 类 游戏 中 ， 收 
获 即 获得 棋局 胜利 。) 首先 ， 我 们 会 对 Q 学 习 代理 如 何 做 出 决策 、 如 何 
不 断 改 进 自 喘 进 行 描述 。 接 着 ， 我 们 会 展示 如 何在 Keras 框 架 中 实现 Q 学 
习 。 最 后 ， 我 们 就 可 以 开始 训练 一 个 新 的 、 能 够 自我 改进 的 游戏 AIT ， 
它 与 第 10 间 中 所 介绍 的 集 略 学 习 代 理 有 着 不 同 的 特性 。 


11.1 使 用 Q 学 习 进 行 游戏 


假设 有 一 个 函数 能 够 给 出 一 步 动 作 之 后 最 终 获 胜 的 概率 。 我 们 把 这 
个 函数 称 为 行动 -价值 函数 (action-value function) ， 因 为 它 能 够 给 出 某 
个 给 定 行 动 的 价值 。 有 了 它 ， 游 戏 的 执行 过 程 就 很 简单 了 : 只 需 在 每 一 
回合 都 选择 价值 最 高 的 动作 。 不 过 问题 来 了 ， 这 样 的 行动 -价值 函数 应 
当 如 何 得 到 呢 ? 


本 市 介绍 Q 学 习 ， 它 是 一 种 通过 强化 学 习 来 训练 出 行动 -价值 函数 的 
技巧 。 当 然 ， 对 于 围棋 中 的 动作 ， 我 们 无 法 学 会 真正 的 行动 -价值 函 
数 : 那 需 要 读 取 整个 游戏 树 ， 包 含 不 可 胜 数 的 可 能 性 。 但 是 我 们 可 以 学 
会 行动 -价值 函数 的 一 个 估计 (estimate〉， 并 通过 自我 对 斌 来 迭代 地 改 
进 它 。 当 这 个 估计 变 得 越 来 越 准 确 的 时 候 ， 依 赖 它 的 机 器 人 束 会 变 得 越 
来 越 强大 。 





Q 学 习 的 名 称 来 源 于 它 的 标准 数学 公式 。 传 统 上 ， 我 们 用 Q(s, a) 来 
表示 行动 -价值 函数 。 这 个 函数 有 两 个 变量 : s 代 表 代 理 所 面临 的 状态 
〈 例 如， 一 个 棋局 ) ，qa 则 代表 代理 正在 考虑 的 行动 〈 即 下 一 回合 可 能 





选择 的 动作 ) 。 图 11-1 展 示 了 一 个 行动 -价值 函数 的 输入 。 本 章 只 专注 村 
深度 Q 学 习 的 话题 ， 即 用 一 个 神经 网 络 来 估计 Q 函 数 。 但 是 这 
原理 ， 大 体 也 适用 于 经 典 Q 学 习 算 法 ， 即 用 一 个 表格 来 和 逼近 QE 
的 每 一 行 代表 一 个 可 能 状态 ， 每 一 列 代表 每 个 可 能 的 行动 。 


六 
曙 
> 
这 
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el 
举 
ey 


状态 行动 


采取 这 个 行动 能 够 得 
072 4 一 一 一 到 的 估计 的 期 望 值 。 
图 11-1 ”接收 两 个 输入 的 行动 -价值 函数 :一 个 输入 代表 状态 ( 即 棋局 》》， 男 一 个 输入 代表 行动 
《 即 候选 的 落 子 动作 ) 。 它 的 输出 则 是 如 果 和 采取 这 个 行动 将 会 得 到 的 预期 回报 〈 即 记得 棋局 的 
概率 ) 的 估计 值 。 传 统 上 ， 行 动 -价值 冰 数 在 数学 表达 式 中 用 Q 来 表示 




















在 第 10 间 中， 我 们 研究 了 通过 直接 学 习 一 个 琐 略 ( 即 选择 动作 的 规 
则 》 的 方式 来 进行 强化 学 习 ， 而 Q 学 习 的 结构 也 有 些 类 似 。 首 先 需 要 构 
府 一 个 代理 ， 它 能 够 进行 自我 对 五 、 记 录 所 有 的 决策 与 棋局 结果 ， 而 棋 
局 的 结果 能 用 来 判断 决策 是 否 民 好 ; 接 厦 根据 这 些 数据 来 更 新 代理 的 行 
为 。 但 在 Q 和 学习 中 ， 代 理 在 棋局 中 做 出 决 集 的 方式 ， 以 及 它 根据 结果 来 
更 新 行为 的 方式 ， 都 与 策略 学 习 有 所 区 别 。 














要 从 一 个 Q 函 数 构 建 出 能 够 进行 对 穿 的 代理 ， 需 要 先 将 Q 函 数 转 换 
为 一 个 集 略 。 方 法 之 一 是 把 所 有 可 能 的 动作 都 输入 Q 函 数 中 ， 然 后 选择 
预期 回报 最 蜗 的 动作 ， 如 图 11-2 所 示 。 这 种 策略 称 为 信人 稚 (greedy) 筑 











状态 行动 行动 价值 
5 TF 
| 
@O 
86 
循环 遍历 全 部 合法 的 
动作 ， 并 把 它们 都 输 日 二 
入 Q 函 数 中 。 O O 
@O 一 =| a 六 ~ 0.39 
@@ 
Cl 
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@@ 
回 
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@O | — -(Q) = 0.72 
@8 
选择 估计 值 最 
高 的 那个 行动 。 
] 
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©O -一 + 
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| 到 





图 11-2 在 一 个 贫 禁 行动 价值 策略 中 ， 我 们 循环 过 历 全 部 可 能 的 动作 ， 并 估计 行动 的 值 。 接 着 
选择 估计 值 最 高 的 行动 (为 了 节省 空间 ， 图 中 省 略 了 许多 合法 动作 
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如 采 我 们 对 行动 价值 的 估计 有 足够 信心 ， 那 么 贷 末 策略 就 是 最 好 的 
选择 。 但 是 ， 如 有 果 想 要 对 估计 做 出 改进 ， 束 需要 机 器 人 能 够 偶尔 尝试 去 
探索 未 知 领域 。 我 们 把 这 种 策略 称 为 s 贪 焚 〈s-greedy) 策略 ， 即 在 整个 
过 程 的 = 部 分 时 间 中 ， 策 略 将 完全 随机 地 选择 动作 ， 而 其 他 时 间 则 采取 
正常 的 贪 焚 策 略 。 图 11-3 展 示 了 这 个 过 程 的 流程 图 。 








选择 随机 数 x 








图 11-3 ”ee 贪 梦 行 动 价值 策略 的 流程 图 。 这 种 策略 尝试 在 最 佳 动作 与 探索 未 知 动作 之 间 找 到 一 个 
平衡 。e 值 用 来 控制 这 个 平衡 














是 希腊 字母 ， 通 常用 来 表示 一 个 很 小 的 部 分 。 


E 贪 焚 策 略 的 伪 代 码 如 代码 清单 11-1 所 示 。 


代码 清单 11-1 es 贪 焚 策略 的 伪 代 码 





def select action(state, epsilon): 
possible actions = get possible actions(state) 
if random.random() < epsilon: <--- ”随机 探索 的 情形 
return random.choice(possible actions) 
best action = None <--- ”选择 已 知 的 最 佳 动作 
best value = MIN VALUE 
for action in get possible actions(state): 
action value = self.estimate action value(state, action) 
if action value > best value: 
best action = action 
best value = action value 


return best action 


e 值 的 选取 代表 了 一 种 权衡 。 当 它 的 值 接近 于 0 时 ， 代 理会 根据 当前 
行动 -价值 的 估计 来 选择 最 佳 动 作 ， 但 这 样 代理 整 失 去 了 尝试 新 动作 的 
机 会 ， 因 而 无 法 改进 它 的 估计 ; 而 当 e 较 高 时 ， 代 理会 输 掉 更 多 棋局 ， 
但 它 也 能 够 学 习 到 更 多 未 知 的 动作 。 


这 个 过 程 可 以 用 人 类 学 习 技能 的 过 程 来 类 比 。 无 论 是 下 围棋 还 是 弹 
钢 芬 ， 人 类 的 学 习 者 在 熟悉 了 一 系列 拉 巧 之 后 ， 都 第 常会 进入 一 个 平台 
期 ， 无 法 再 继续 进步 。 要 路 越 这 个 障碍 ， 需 要 强迫 上 自己 跳出 舒适 区 域 ， 
转 而 去 答 试 新 鲜 的 事物 。 在 钢 共 中， 新 鲜 事 物 指 的 也 许 是 新 的 指法 ， 或 
者 新 的 节奏 ， 而 在 围棋 中 ， 则 可 能 指 的 是 新 的 开局 方式 ， 或 者 新 的 定 
式 。 我 们 的 表现 水 准 可 能 会 由 于 不 台 悉 的 环境 而 变 莽 一 段 时 间 ， 但 是 在 
掌握 了 新 技巧 的 工作 方式 之 后 ， 会 变 得 比 以 前 更 为 强大 。 








在 Q 学 习 中 ， 我 们 一 般 从 一 个 相当 高 的 e 值 开始 学 习 ， 如 0.5。 随 大 
代理 不 断 改 进 ， 我 们 会 逐渐 降低 e 值 。 注 意 ， 如 果 e 降 到 0， 代 理 就 会 停 
止 学 习 ; 它 将 只 会 不 断 地 重复 相同 的 玩法 。 


在 生成 了 一 个 很 大 的 棋局 数据 集 之 后 ，Q 学 习 的 训练 流程 就 和 监督 
学 习 非 第 类 似 了 。 代 理 所 采 取 的 行动 为 我 们 提供 了 训练 集 ， 因 此 可 以 将 
棋局 的 结果 当 作 数据 已 知 的 民 好 标签 。 当 然 ， 训 练 集中 还 包含 不 少 伐 辛 
获胜 的 棋局 ， 但 是 由 于 棋局 数量 巨大 ， 数 以 千 计 ， 因 此 我 们 可 以 认为 ， 
纯粹 由 运气 所 致 的 败局 也 有 相当 的 数目 ， 从 而 能 够 抵 销 它们 的 影响 。 











第 7 章 的 动作 预测 模型 可 以 学 会 预测 它 未 见 过 的 棋局 ， 而 行动 -价值 





模型 也 能 


以 相同 的 方式 来 学 习 如 何 预 测 它 从 未 采用 过 的 动作 的 价值 。 我 


们 可 以 把 棋局 的 结果 作为 训练 流程 的 目标 ， 如 图 11-4 所 示 。 不 过 要 让 它 
得 到 这 种 推广 学 习 能 力 ， 需 要 设计 一 个 合适 的 神经 网 络 ， 并 提供 大 量 的 


训练 数据 。 





行动 预测 网 络 
游戏 状态 A 人 
用 于 行动 预测 OO AND | 
的 训练 数据 OO —- CXORO— | 
Ls | Of | | 
游戏 状态 
| 
49 行动 -价值 网 络 
| 棋局 结果 
] @@ OOD 
用 于 Q 学 习 的 ORE 
训练 数据 所 选择 的 行动 (RN 
” 
胜局 得 分 1， 


图 11-4 ”为 深度 Q 学 习 准 
成 训练 数据 的 过 程 。 








负 局 得 分 -1 














这 里 的 输入 是 棋局 ， 输 出 是 真实 的 动作 。 





备 训练 数据 。 图 中 上 半 部 分 展示 了 在 第 6 章 和 第 7 章 中 为 行动 预测 网 络 生 





图 中 下 半 部 分 展示 了 用 于 Q 学 习 


的 训练 数据 的 结构 。 输 入 包括 棋局 和 所 选择 的 行动 ， 输 出 则 是 棋局 的 结果 ， 即 胜局 输出 得 分 1， 


11.2 


负 局 输出 得 分 -1 


在 Keras 中 实现 Q 学 习 





本 节 展 示 如 何在 Keras 框 架 中 实现 Q 学 习 算 法 。 到 目前 为 止 我 们 在 
Keras 中 训练 过 单一 输出 、 单 一 输入 的 函数 。 但 由 于 行动 -价值 函数 有 两 


个 输入 ， 因 此 要 设计 一 个 合适 的 神经 网 路 ， 需 要 用 到 新 的 Keras 特 性 。 
我 们 将 介 ee 接着 再 展示 如 何 进行 动作 评估 ， 如 何 
组 疤 训 练 数据 ， 以 及 如 何 训练 代理 。 





11.2.1 ”在 Keras 中 构建 双 输 入 网 络 


在 前 面 的 章节 中 ， 我 们 一 直 用 Keras 的 Sequential 模 型 ( 即 顺序 模 
型 ) 来 定义 神经 网 络 。 代 码 清单 11-2 展 示 了 如 何 使 用 顺序 API 来 定义 一 
个 模型 的 示例 。 


代码 清单 11-2 用 Keras 顺 序 API 定 义 模型 





from keras.models import Sequential 
from keras.layers import Dense 


model = Sequential() 
model.add(Dense(32, input shape=(19, 19))) 
model.add(Dense(24)) 





实际 上 ，Keras 还 提供 了 男 外 一 套 定 义 神 经 网 络 的 API: 函数 式 

函数 式 API 所 提供 的 功能 是 顺序 API 的 一 个 超 集 。 任 何 顺序 网 络 的 
定义 ， 都 可 以 重 写 为 函数 式 风 格 ， 并 且 函 数 式 API 还 能 够 用 来 定义 一 些 
顺序 风格 无 法 描述 的 复杂 网 络 。 





这 两 套 API 的 主要 区 别 在 于 如 何 指定 不 同 层 之 间 的 连接 方式 。 ow 
序 模型 中 ， 要 连接 不 同 的 层 ， 可 以 在 模型 对 象 上 反复 调用 add 方 法 ， 
会 将 最 后 一 层 的 输出 自动 连接 到 新 层 的 输入 上 。 而 在 函数 式 模 型 中 ， 
连接 不 同 的 层 ， 需 要 用 一 个 类 似 于 函数 调用 的 i Ei 

















一 个 层 上 去 。 由 于 这 里 每 个 连接 都 需要 显 式 创建 ， 因 此 可 以 摘 述 更 加 复 
林 的 网 络 。 代 码 清单 11-3 展 示 了 如 何 用 函数 式 风格 创建 一 个 与 代码 清单 
11-2 相 同 的 网 络 。 














代码 清单 11-3 ”使 用 Keras 函 数 式 API 定 义 一 个 相同 的 模型 














from keras.models import Model 
from keras.layers import Dense, Input 


model input = Input(shape=(19, 19)) 
hidden layer = Dense(32)(model input) <--- ”将 model input 与 一 个 Dense 层 的 








输入 连接 起 来 ， 并 将 这 个 层 命 名 为 hidden_layer 
output_ layer = Dense(24)(hidden layer) <--- 将 hidden_ layer 与 一 个 新 的 Den 
se 层 的 输入 连接 起 来 ， 并 命名 新 层 为 output_layer 





model = Model(inputs=[model input], outputs=[output layer]) 





这 两 个 模型 完全 一 致 。 顺 序 API 在 定义 大 多 数 常见 神经 网 络 时 更 方 
便 ， 而 函数 式 API 则 提供 了 更 多 的 灵活 性 ， 可 以 指定 多 个 输入 、 输 出 ， 
或 者 更 复杂 的 连接 方式 。 


由 于 我 们 的 行动 -价值 网 络 有 两 个 输入 和 一 个 输出 ， 因 此 总 有 一 个 
时 刻 需 要 将 这 两 个 输入 拼接 起 来 。Keras 的 Concatenate 层 可 以 实现 这 
个 功能 。Concatenate 层 不 做 任何 计算 ， 而 只 把 两 个 向 量 或 张 量 合成 一 
个 ， 如 图 11-5 所 示 。 它 还 提供 一 个 可 选 的 参数 axis， 用 来 指定 需要 拼接 
的 维度 ， 其 默认 值 是 最 后 一 个 维度 ， 而 这 正好 就 是 我 们 的 示例 所 需要 
的 。 其 他 所 有 的 维度 尺寸 都 必须 相同 。 











两 个 输入 在 第 一 个 
维度 上 必须 有 相同 l . LE 有 | 
的 维 数 。 93107 之 3658 


合成 的 5 


结果 是 两 个 输入 | Mr i i 
合成 的 张 量 。 | 


图 11-5”Keras 的 Concatenate 层 ， 将 两 个 张 量 合成 一 个 





现在 我 们 可 以 着 手 设 计 一 个 用 来 学 习 行动 -价值 函数 的 网 络 了 。 回 
顾 第 6 蔓 和 第 7 章 中 用 于 预测 动作 的 卷 积 层 。 神 经 网 络 从 概念 上 可 以 划分 
为 两 个 阶段 : 首先 ， 卷 积 层 用 来 识别 棋盘 上 重要 的 定式 形状 ; 然后 ， 和 而 
密 层 用 于 根据 这 些 定式 做 出 决策 。 图 11-6 展 示 了 动作 预测 网 络 的 各 个 层 
如 何 分 别 扮演 这 两 个 角色 。 











TOOTO 


-人 〇 + 棋局 的 直接 表示 







个 一 一 第 一 阶段 : 将 棋盘 上 
的 棋子 组 织 成 逻辑 组 
( 即 定式 棋 型 ) 


棋局 的 概念 表示 


第 二 阶段 ;根据 这 
”一 些 棋 型 作出 决策 


0.01 | 0.01 | 0.01 | 0.23 | 0.01 


0.01 | 0.29 | 0.01 | 0.01 | 0.01 


0.08 | 0.01 | 0.01 | 0.01 Ws 所 有 可 能 行动 的 概率 分 布 


0.01 | 0.01 | 0.01 | 0.01 | 0.19 





图 11-6 ”第 6 章 和 第 7 章 中 介绍 的 行动 预测 网 络 。 昌 然 它 有 很 多 层 ， 但 可 以 从 概念 上 划分 为 两 个 
阶段 。 首 先 ， 卷 积 层 将 原始 棋盘 组 织 成 逻辑 组 和 定式 棋 型 ， 然 后 ， 稠 密 层 根据 前 面 的 输出 表示 
来 选择 一 个 行动 














对 行动 -价值 网 络 来 说 ， 将 棋盘 处 理 成 重要 的 定式 或 棋 型 仍然 是 有 
必要 的 。 任 何 对 行动 预测 有 用 的 棋 型 都 很 可 能 对 行动 -价值 的 佑 计 有 所 
帮助 。 所 以 网 络 的 这 一 部 分 可 以 直接 借用 过 来 ， 采 取 完 全 相同 的 结构 ， 
而 后 面 的 决 集 阶段 残 有 所 差别 了 。 我 们 不 再 只 根据 识别 出 来 的 定式 去 作 











出 决策 ， 而 是 需要 根据 处 理 过 的 棋盘 数据 ， 再 加 上 候选 的 动作 ， 合 起 来 
做 出 价值 的 估计 。 因 此 ， 我 们 可 以 在 卷 积 层 之 后 把 候选 动作 向 量 也 引入 
进来 。 图 11-7 展 示 了 这 样 的 一 个 网 络 。 


| | ciQ_ 当前 棋盘 编码 


为 一 个 张 量 ) 
—@e® 











候选 动作 编码 
为 一 个 向 量 ) 


候选 动作 的 一 vv 0.61 
预期 回报 














图 11-7 ”代码 清单 11-4 描 述 的 双 输 入 神经 网 络 。 与 第 7 章 中 的 动作 预测 网 络 一 样 ， 棋 盘 状 态 通 过 
多 个 卷 积 层 输 入 。 候 选 动 作 作 为 为 一 个 单独 的 输入 ， 与 卷 积 层 的 输出 一 起 ， 传 递 给 男 一 个 稠密 
层 




















由 于 我 们 用 -1 代表 败局 ， 用 1 代表 胜局 ， 因 此 行动 -价值 的 值 应 该 在 
-1 一 I 的 范围 内 。 要 做 到 这 一 点 ， 可 以 添加 一 个 尺寸 为 1 的 Dense 层 ， 其 
激活 函数 为 tanh。 这 个 函数 是 三 角 函 数 中 的 双 曲 正切 函数 ， 但 在 深度 学 
习 里 ， 我 们 完全 不 用 关心 tanh 函 数 的 几何 特征 ， 而 只 需要 知道 它 是 一 个 
值 域 为 -1 一 1 的 平滑 函数 即 可 。 这 样 ， 不 论 前 面 的 层 计算 出 什么 结果 ， 
输出 都 会 在 我 们 想 要 的 范围 内 。 图 11-8 展 示 了 tanh 函 数 的 曲线 图 。 


我 们 的 行动 -价值 网 络 的 完整 定义 ， 可 以 参考 代码 清单 11-4。 











代码 清单 11-4 一 个 双 输 入 行动 -价值 网 络 














from keras.models import Model 
from keras.layers import Conv2D, Dense, Flatten, Input 
from keras.layers import Zeropadding2D, concatenate 


board input = Input(shape=encoder.shape(), name="'board input') 
action input = Input(shape=(encoder.num points(),), 
name="action input') 


conv1a = ZeroPadding2D((2，2))(board input) 
conv1b = Conv2D(64，(5，5)，activation='relu')(conv1a) <--- 可 以 随意 添 
加 多 个 卷 积 层 。 任 何 动作 预测 网 络 中 所 适用 的 层 类 型 ， 都 可 以 在 这 里 被 采用 















































ZeroPadding2D((1, 1))(convib) 
Conv2D(64, (3, 3), actionvation='relu')(conv2a) 


conv2a 
conv2b 


flat = Flatten()(conv2b) 
processed board = Dense(512) (flat) 


board and action = concatenate([action input, processed board]) 

hidden layer = Dense(256, activation='relu')(board and action) <--- 可 
能 需要 试验 并 调整 这 个 隐藏 层 的 尺寸 

value output = Dense(1, activation='tanh')(hidden layer) <--- ” tanh 激活 
层 将 输出 限制 在 -1~1 








model = Model(inputs=[board input, action input], 
outputs=value output) 








-6 -4 -2 0 2 4 6 











图 11-8 ” tanh 函数 ( 双 曲 正切 函数 ) ， 它 的 值 域 限 定 在 -1 一 1 











11.2.2 ”用 Keras 实 现 s 贪 焚 策 略 


让 我 们 开始 构建 一 个 QAgent 类 ， 它 可 以 通过 Q 学 习 算 法 进行 学 习 。 
我 们 将 这 段 代 码 放 在 dlgo/rl/q.py 模 块 中 。 代 码 清单 11-5 展 示 了 这 个 类 的 
构造 函数 : 与 之 前 的 策略 学 习 代 理 一 样 ， 它 也 需要 一 个 模型 参数 和 一 个 
棋盘 编码 器 参数 。 另 外 ， 我 们 还 定义 了 两 个 实用 工具 方法 。 其 
中 ，set_temperature 方 法 让 我 们 可 以 更 改 e 值 ， 而 这 个 值 的 修改 在 训 
练 过 程 中 是 必 不 可 少 的 。 男 外 ， 和 第 9 章 相 同 ，set_collector 方 法 可 
以 设置 一 个 ExperienceCollector 对 象 ， 用 来 存储 经 验 数 据 ， 以 供 未 
来 训练 所 用 。 











代码 清单 11-5”Q 学 习 代 理 的 构造 函数 与 实用 工具 方法 








class QAgent(Agent ) : 
def _init (self, model, encoder): 
self.model = model 
self.encoder = encoder 
self.collector = None 


self.temperature = 0.6 


def set temperature(self, temperature): <--- temperature 即 e 值 ， 用 来 
控制 策略 的 随机 度 
self.temperature = temperature 
def set collector(self, collector): <--- 要 了 解 如 何 用 收集 器 对 象 来 记 





























录 代 理 的 经 验 数据 ， 可 以 参考 第 9 章 


self.collector = collector 











接 下 来 我 们 实现 = 贪 梦 策 略 。 和 第 9 章 一 样 ， 我 们 不 直接 选择 评分 最 
高 的 动作 ， 而 是 将 所 有 动作 进行 排序 ， 并 依次 尝试 ， 如 代码 清单 11-6 所 
示 。 这 么 做 可 以 防止 代理 在 终 盘 阶段 即将 获胜 的 时 候选 择 上 自杀 动作 。 





























代码 清单 11-6 ”为 Q 学 习 代理 选择 动作 














class QAgent (Agent): 


def select move(self, game_ state): 
board tensor = self.encoder.encode(game_ state) 








moves = [] <--- 生成 一 个 包含 所 有 合法 动作 的 列表 
board tensors = [] 
for move in game_state.legal moves(): 

if not move.is play: 

continue 

moves.append(self.encoder.encode point(move.point)) 

board tensors.append(board tensor) 
if not moves: <--- 如 果 无 法 生成 任何 合法 动作 ， 代 理 可 以 直接 跳 过 回合 


Peturn goboard.Move.pass_turn() 






































num_moves = len(moves) 
board tensors = np.array(board tensors) 


move_vectors = np.zeros( <--- ”对 所 有 合法 动作 进行 独 热 编码 (更 多 内 








(num moves, self.encoder.num points())) 
for i, move in enumerate(moves): 
move_ vectors[il][move] = 1 





values = self.model.predict( <--- 预测 的 形式 是 双 输 入 : 用 一 个 列表 

来 传递 两 个 输入 
[board tensors, move vectors]) 
values = values.reshape(len(moves)) <--- values 是 一 个 Nx1 和 矩阵 ， 


其 中 N 是 合法 动作 的 数目 ， 调 用 reshape 将 它 转换 为 一 个 尺寸 为 N 的 向 量 











ranked moves = self.rank_moves_eps_greedy(values) <--- 根据 < 贪 


焚 策 略 对 所 有 动作 进行 排序 


for move_idx in ranked_moves: <--- 与 第 9 章 的 自我 对 奔 代 理 相 似 ， 我 
们 选择 动作 列表 中 第 一 个 不 会 自杀 的 动作 
point = self.encoder.decode point index( 
moves[move_idx]) 
if not is point an eye(game_ state.board, 


point, 
game_state.next_ player): 
if self.collector is not None: <--- 将 决策 结果 存 到 一 个 经 








验 数据 缓冲 区 中 《有 具体 参见 第 9 章 ) 
self.collector.record decision( 
state=board tensor， 
action=moves[move_idx]， 
) 
return goboard.Move.play(point) 
return goboard.Move.pass turn() <--- 如 果 所 有 的 合法 动作 都 会 导致 
自杀 ， 程 序 就 会 跳 到 这 里 





Q 学 习 与 树 搜索 





select_move 的 实现 ， 与 我 们 在 第 4 章 中 介绍 的 茶 些 树 搜 索 算法 有 
类 似 的 结构 。 例 如 ， 勇 枝 搜索 依赖 于 一 个 棋 副 评估 函数 : 这 个 函数 接收 
一 个 棋局 作为 输入 ， 并 估计 哪 一 方 领先 、 领 先 多 少 。 这 和 我 们 本 章 介绍 
的 行动 -价值 函数 非常 相似 ， 但 也 并 不 完全 相同 。 假 设 代理 正在 执 黑 
子 ， 要 评估 一 个 动作 X。 它 得 到 的 行动 -价值 为 0.65。 这 样 我 们 残 知 道 动 
作 X 执 行 之 后 ， 棋 盘 会 变 成 什么 样 了 。 并 且 由 于 黑 方 获胜 意味 着 日 方 失 
败 ， 因 此 我 们 可 以 说 ， 下 一 个 棋局 对 日 方 的 行动 -价值 为 -0.65。 








用 数学 语言 来 说 ， 可 以 用 如 下 方程 来 描述 这 个 关系 : 


Q (s, a) = ~V (s’) 


这 里 s’ 指 的 是 在 黑 方 选择 动作 a 之 后 ， 白 方 所 见 的 状态 。 





通常 来 说 ，Q 学 习 可 以 应 用 于 任何 环境 ， 但 这 种 一 个 状态 的 行动 - 价 
值 与 下 一 个 状态 等 价 的 情形 ， 只 存在 于 确定 性 的 游戏 中 。 








我 们 将 在 第 12 半 介绍 第 3 种 强化 学 习 技术 ， 它 可 以 直接 学 习 一 个 价 
数 ， 而 不 是 行动 -价值 冰 数 。 第 13 革 和 第 14 间 会 展示 如 何 将 这 个 价 
数 集成 到 一 个 树 搜索 算法 中 。 





但 


邯 
值 函 








剩 下 的 代码 将 所 有 的 动作 按照 价值 高 低 进行 排序 。 但 还 有 个 问题 要 
解决 ， 即 我 们 有 两 个 并 行 的 数组 : value 和 moves。NumPy 提 供 了 一 个 
函数 argsort， 它 可 以 方便 地 处 理 这 种 情况 。argsort 在 排序 时 并 不 直 
接 修 改 数组 ， 而 是 返回 一 个 由 下 标 组 成 的 列表 。 然 后 我 们 就 可 以 根据 这 
些 下 标 来 读 取 并 行 数组 中 的 元 素 。 图 11-9 展 示 了 argsort 的 工作 方式 。 


需要 排序 的 
值 的 向 量 一 一 5 元 芭 交 0 





最 大 值 的 下 标 


EE 炮 时 


最 小 值 的 下 标 











图 11-9 ”NumpPy 库 argsort 函 数 的 示意 图 。argsort 接 收 一 个 多 值 向 量 参数 ， 并 返回 一 个 由 下 标 
组 成 的 向 量 ， 通 过 下 标 可 以 按 顺 序 获 取 数 值 。 因 此 ， 输 出 向 量 的 第 一 个 值 是 输入 向 量 中 最 小 值 
的 下 标 ， 最 后 一 个 值 是 输入 向 量 中 最 大 值 的 下 标 








代码 清单 11-7 展 示 了 如 何 使 用 argsort 来 对 动作 列表 排序 。 























代码 清单 11-7 ”为 Q 学 习 代理 选择 动作 





class QAgent (Agent): 


de rank_moves_eps_ greedy(self, values): 
if np.random.random() < self.temperature: <--- 在 探索 的 情形 中 ， 
不 再 使 用 动作 的 真实 价值 来 排序 ， 而 是 使 用 随机 数 排 序 














values = np.random.random(values.shape) 
ranked moves = np.argsort(values) <--- 将 动作 按照 价值 从 小 到 大 排 
序 ， 获 取 排 好 序 的 下 标 
return ranked moves[::-1] <--- 在 NumPy 中 ，[::-1] 语 法 是 将 向 量 反 向 
排序 的 最 高 效 的 办 法 








完成 上 述 准备 之 后 ， 就 可 以 开始 用 Q 学 习 代 理 生成 目 我 对 而 棋局 
了 。 接 下 来 我 们 将 会 介绍 如 何 训练 行动 -价值 网 络 。 


11.2.3 训练 一 个 行动 -价值 函数 


在 获得 一 批 经 验 数据 之 后 ， 惑 可 以 着手 更 新 代理 的 网 络 了 。 在 策略 
梯度 学 习 中 ， 我 们 知道 期 望 的 杨 度 的 近似 值 ， 但 是 在 Keras 框 染 中 ， 还 
再 要 一 套 复杂 的 负 辑 来 更 新 这 个 梯度 。 而 Q 学 习 则 与 之 相反 ， 训 练 过 程 
只 需 直接 应 用 Keras 的 fit 函 数 即 可 。 我 们 可 以 直接 把 棋局 结果 放 到 目标 
中 。 





村 
wl 





第 6 章 介 绍 了 两 种 损失 函数 ， 均 方 误差 损失 函数 和 交叉 烂 损 抢 
数 。 如 果 希 望 从 离散 集合 中 选择 单个 结果 ， 可 以 使 用 交 义 灶 损 失 函 数 。 
在 围棋 中 ， 这 其 实 残 相当 于 在 围棋 棋盘 中 寻找 一 个 点 。 而 Q 函 数 则 不 
同 ， 它 会 返回 一 个 -1 一 1 的 连续 值 。 对 于 这 类 问题 ， 我 们 倾向 于 使 用 均 
方 误差 损失 函数 。 











代码 清单 11-8 展 示 了 QAgent 的 一 个 train 函 数 的 实现 。 











代码 清单 11-8 ”从 Q 学 习 代 理 的 经 验 中 进行 训练 











class QAgent (Agent): 


def train(self, experience, lr=60.1, batch size=128): <--- 1Lr 和 batc 
h_size 都 是 用 来 微调 训练 过 程 的 参数 。 可 以 参考 第 16 章 中 的 详细 讨论 
opt = SGD(lr=1r) 
self.model.compile(loss='mse', optimizer=opt) <--- mse 即 均 方 误 
差 。 这 里 我 们 不 用 categorical_crossentropy， 而 使 用 mse， 是 因为 我 们 要 学 习 的 目标 是 一 
个 连续 值 











n = experience.states.shape[0] 
num moves = self.encoder.num points() 
y = np.zeros((n,)) 
actions = np.zeros((n, num moves)) 
for i in range(n) : 
action = experience.actions[i] 
reward = experience.rewards[il] 
actions[ilj[action] = 1 
y[i] = reward 
self.model .fit( 
[experience.states, actions], y, <--- 将 两 个 不 同 的 输入 作为 一 
个 列表 进行 传递 
batch_size=batch_size， 
epochs=1) 




















11.3 ”小结 


。 行动 -价值 函数 用 来 估计 一 个 代理 在 执行 特定 行动 之 后 所 能 得 到 的 
收获 。 在 棋 类 游戏 中 ， 这 个 收获 指 的 是 预期 的 获胜 座 。 

。 Q 学 习 是 一 套 强 化 学 习 技术 ， 它 能 够 通过 估计 一 个 行动 -价值 函数 
(传统 上 用 Q 来 表示 )〉 来 进行 学 习 。 

。 训练 Q 学 习 代理 的 过 程 通 常会 采用 e 信 新 集 略 。 在 这 套 集 略 中 ， 代 
理会 在 大 部 分 时 间 里 选择 价值 最 高 的 动作 ， 在 其 余 时 间 选 择 一 个 随 
机 动作 。 参 数 e 可 以 控制 代理 在 多 大 程度 上 会 探索 未 知 的 动作 ， 以 


便于 学 到 新 的 知识 。 

。 Keras 的 函数 式 API 可 以 帮助 设计 多 输入 、 多 输出 ， 或 者 拥有 复杂 内 
部 连接 的 神经 网 络 。 对 Q 学 习 来 说 ， 我 们 可 以 使 用 函数 式 API 来 构 
建 有 两 个 输入 《 即 游戏 状态 和 候选 动作 ) 的 网 络 。 


第 12 革 ”基于 演员 -评价 方法 的 强化 学 习 


。 利用 优势 来 提高 强化 学 习 的 效率 。 
。 基于 演员 -评价 方法 构建 一 个 自我 改进 的 游戏 AI。 


。 用 Keras 设 计 和 训练 多 输出 神经 网 络 。 





学 习 下 围棋 最 好 的 提高 方法 之 一 就 是 找 比 目 己 更 强 的 棋 手 来 评论 目 
己 的 棋局 。 评 棋 人 有 时 候 甚 至 能 一 针 见 血 地 指出 哪 一 步 动 作 导 致 了 整 局 
比赛 的 胜 负 ， 这 也 是 最 有 价值 的 反馈 信息 。 他 们 还 可 能 给 出 类 似 “ 你 在 
第 30 回 合 就 已 经 远 远 落后 了 ?或 者 “在 第 110 回 合 你 的 局 势 还 占 优 ， 但 是 
到 第 130 回 合 时 却 被 对 手 扭转 了 局 势 * 这 样 的 评论 。 


这 种 评论 反馈 的 价值 在 哪里 呢 ? 我 们 大 概 没 有 时 间 去 详细 分 析 整 局 
比赛 的 全 部 的 300 步 动作 ， 但 知 只 是 其 中 一 二 十 个 动作 ， 还 是 能 够 仔细 
钻研 的 。 评 棋 人 可 以 帮助 我 们 了 解 棋局 中 哪 一 部 分 更 为 重要 。 


依照 这 个 原理 ， 强 化 学 习 研究 者 设计 了 一 套 演员 -评价 学 习 (actor- 
critic learning》 算 法， 它 将 策略 学 习 在 第 10 章 中 介绍 ) 和 价值 学 习 
(在 第 11 章 中 介绍 ) 有 机 地 结合 起 来 。 其 中 ， 策 略 函数 扮演 了 演员 
Cactor) 的 角色 ， 它 负责 选择 并 执行 一 个 动作 ， 而 价值 函数 则 扮演 评论 


家 《critic) 的 角色 ， 它 负责 在 棋局 全 过 程 中 跟踪 评估 代理 是 领先 还 是 落 
后 。 评 棋 人 能 够 指导 人 们 学 习 下 棋 ， 同 样 ， 价 值 函数 的 这 种 反馈 信息 也 
可 以 指导 训练 过 程 。 





本 章 将 描述 如 何 基 于 演员 -评价 学 习 来 构造 一 个 目 我 改进 的 游戏 
AI。 这 套 机 制 能 够 奏效 的 一 个 关键 因素 是 优势 (advantage〉 ， 即 游戏 
的 实际 结果 与 预期 结果 的 差异 。 首 先 ， 我 们 展示 如 何 利用 优势 来 改进 训 
练 过 程 。 接 着 ， 我 们 开始 构建 一 个 演员 -评价 游戏 代理 ， 我 们 先 描述 如 
何 实现 动作 选择 功能 ， 再 实现 新 的 训练 过 程 。 这 两 个 函数 ， 很 大 程度 借 
鉴 了 第 10 章 和 第 11 章 中 的 代码 示例 。 最 终 我 们 得 到 的 结果 ， 能 够 取 两 家 
之 长 ， 将 策略 学 习 和 Q 学 习 的 优点 结合 起 来 ， 放 到 同一 个 代理 中 。 








12.1 ”优势 能 够 告诉 我 们 哪些 决策 更 加 重要 


在 第 10 瘟 中， 我 们 简略 地 讨论 过 贡献 分 配 问 题 。 假 设 学 习 代 理 进 行 
了 一 局 200 回 合 的 对 弈 并 最 终 获 得 胜利 。 由 于 它 取 得 了 胜利 ， 因 此 我 们 
可 以 认为 它 至 少 做 出 了 几 次 很 好 的 落 子 动作 选择 。 但 是 它 也 可 能 选择 了 
几 个 坏 的 动作 。 页 献 分 配 问题 就 是 如 何 区 分 好 的 动作 与 坏 的 动作 的 问 
题 。 对 于 前 者 ， 我 们 希望 能 够 加 强 ， 而 后 者 我 们 则 希望 能 够 忽略 。 本 市 
介绍 优势 的 概念 ， 它 是 一 个 用 来 估计 某 个 特定 诀 策 对 最 终结 采 有 多 大 影 
啊 的 公式 。 我 们 先 介 绍 优势 的 概念 以 及 它 如 何 帮助 解决 页 献 分 配 问 题 ， 
接 独 会 提供 代码 示例 展示 如 何 计 算 它 。 

















12.1.1 什么 是 优势 


假设 你 正在 观看 一 场 篮球 比赛 。 在 全 场 倒 计时 响起 时 ， 你 最 喜爱 的 
球员 命中 了 一 记 3 分 。 这 时 候 你 会 不 会 很 激动 ? 这 要 看 球赛 的 游戏 状 
态 。 假 如 比分 是 80 : 78， 你 可 能 会 激动 地 跳 到 椅子 上 。 而 如 果 比 分 是 
110 比 80， 那 就 没什么 意思 了 。 这 两 种 情况 有 什么 区 别 呢 ? 在 比分 焦灼 
的 比赛 中 ， 一 个 3 分 的 差距 ， 可 能 会 导致 整个 比赛 结果 有 巨大 变化 。 而 
相反 地 ， 如 果 比 赛 已 经 远 远 落 后 ， 那 么 一 次 得 分 并 不 能 对 结果 有 什么 大 
的 影响 。 最 关键 的 得 分 都 是 发 生 在 比分 焦灼 、 胜 负 未 定 的 局 面 下 的 。 在 
强化 学 习 中 ， 优 势 正 是 一 个 用 来 量化 这 个 情况 的 公式 。 


要 计算 优势 ， 首 先 需 要 对 游戏 状态 的 价值 做 一 个 估计 ， 我 们 记 
为 V(s)。 这 个 值 同 时 也 表示 代理 在 达到 特定 状态 s 时 将 会 得 到 的 预期 回 
报 。 在 围棋 游戏 中 ， 可 以 把 V(s) 看 作 表示 棋局 是 利于 黑 方 还 是 日 方 的 指 
标 。 如 果 V(s) 接 近 于 1， 则 表示 代理 处 于 优势 ， 而 如 果 V(s) 接 近 于 -1， 代 
理 就 快要 输 了 。 











如 果 我 们 回顾 第 11 间 的 行动 -价值 函数 Q(s, q)， 束 会 发现 这 两 个 概念 
很 相似 。 区 别 在 于 ，V(s) 代 表 的 是 棋盘 在 选择 一 个 动作 之 前 是 否 有 利 ; 
而 Q(s, q) 则 表示 在 选择 动作 之 后 是 合 有 利 。 


优势 的 定义 一 般 如 下 面 的 公式 所 示 : 
A= Qls,a)— Vl(s) 


要 理解 这 个 定义 ， 可 以 这 么 考虑 : 如 果 已 方 处 在 优势 状态 〈 即 Vs) 
值 很 高 )》， 但 接着 我 们 做 出 了 一 个 很 差 的 回应 动作 〈 即 QGs, q) 值 很 
低 ) ， 就 代表 我 们 放弃 了 自己 的 优势 ， 因 此 计算 结果 是 负 的 。 但 这 个 公 


式 还 有 一 个 问题 没有 解决 ， 即 我 们 不 知道 如 何 计算 Q(s, dj。 不 过 ， 我 们 
可 以 把 终 盘 的 收获 看 作 是 真实 Q 值 的 一 个 无 偏差 估计 。 这 样 ， 就 可 以 等 
到 终 盘 时 得 到 收获 值 R， 再 用 下 面 这 个 公式 来 估计 优势 : 


A=R—oV(s) 


在 本 章 中 ， 我 们 将 采用 这 个 公式 来 估计 优势 。 接 下 来 我 们 看 看 优势 
值 有 什么 用 。 


为 了 方便 解释 ， 我 们 可 以 先 假设 已 经 存在 一 个 准确 估计 Vs) 值 的 方 
法 。 在 现实 中 ， 代 理会 同时 学 习 它 的 价值 估计 函 数 和 它 的 策略 函数 。 我 
们 会 在 后 面 几 市 中 介绍 如 何 做 到 这 一 点 。 现 在 先 看 儿 个 例子 。 


。 开局 时 Vs) = 0， 双 方 剖 有 均等 的 获胜 机 会 。 假 设 代理 最 终 启 得 了 
本 局 ， 那 它 得 到 的 收获 会 是 1。 因 此 它 的 第 一 步 动 作 的 优势 是 1 一 0 
=1]。 

假想 棋局 已 经 接近 终 盘 ， 而 代理 已 经 几乎 锁定 胜局 ， 这 时 候 V(s) = 
0.95。 如 果 最 终 代 理 确实 说 了， 那么 在 这 个 状态 下 的 优势 束 是 1 - 
0.95 = 0.05。 

现在 假想 代理 又 到 了 一 个 即将 获胜 的 局 面 ， 这 时 候 又 有 Vs) = 
0.95。 但 是 在 这 一 局 里 ， 机 器 人 在 终 盘 阶 段 犯 了 一 个 大 错 ， 科 翻盘 
而 输 了 ， 最 后 得 到 的 收获 是 -1。 那 么 在 这 个 状态 下 的 优势 就 是 -1 - 
0.95 = —1.95。 








图 12-1 和 图 12-2 展 示 了 一 个 假想 棋局 中 优势 的 计算 过 程 。 在 这 个 棋 
局 中 ， 学 习 代 理 在 最 初 几 步 中 慢 慢 超越 了 对 手 ， 接 着 又 犯 了 几 个 大 错 ， 
局 势 一 落 千 丈 ， 落 入 败局 。 在 第 150 回 合 之 前 的 某 一 步 ， 它 又 突然 逆转 
了 形势 ， 并 最 终 将 优势 保持 到 了 终 盘 ， 转 为 胜局 。 在 第 10 章 中 的 策略 梯 


度 技 术 中 ， 我 们 会 给 本 局 中 的 所 有 动作 赋予 相同 的 权重 。 如 果 采 用 沉 
员 - 评 价 学 习 ， 就 需要 找到 最 重要 的 那 几 个 动作 ， 并 为 它们 赋予 更 大 的 
权重 。 优 势 计算 可 以 告诉 我 们 如 何 做 到 这 一 点 。 








0.75 J 了 代理 稍 占 优势 
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图 12-1 一 盘 假想 棋局 全 过 程 的 估计 值 曲 线 。 这 一 局 共有 200 回 合 。 在 开始 阶段 ， 学 习 代 理 稍 占 
优势 ， 接 着 它 远 远 落后 了 ; 然后 它 突 然 逆 转 局 势 ， 并 最 终 获 得 胜利 
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图 12-2 ”一 盘 假想 棋局 中 每 一 回合 的 优势 值 。 学 习 代 理 最 终 获 得 胜利 ， 所 以 它 的 最 终 收 获 是 1。 
它 从 落后 局 面 扭转 局 势 的 那 几 步 动作 ， 其 优势 值 接近 于 2， 所 以 在 训练 中 它们 会 被 着 重 强化 。 而 
在 接近 终 盘 阶段 的 动作 ， 因 为 结果 已 经 基本 确定 ， 它 们 的 优势 值 也 接近 于 0， 所 以 在 训练 中 它们 




















由 于 学 习 代理 获得 了 胜利 ， 因 此 优势 由 公式 A(s) =1- Ws) 决 定 。 在 
图 12-2 中 ， 我 们 可 以 看 到 优势 曲线 和 估计 的 价值 曲线 形状 相同 ， 但 是 正 
好 上 下 颠倒 。 优 势 最 大 的 时 候 ， 代 理 的 局 势 正 远 远 落 后 。 由 于 大 多 数 棋 
手 在 这 种 落后 局 面 下 最 终 都 会 失败 ， 因 此 代理 肯定 在 之 后 茶 一 回合 下 了 
一 步 好 棋 。 





在 第 160 回 合 附近 ， 当 代理 又 逆转 局 势 之 后 ， 它 的 决策 就 不 再 有 趣 
了 : 整 盘 棋 局 势 已 经 明朗。 这 一 段 的 优势 值 都 接近 于 0。 








在 本 章 后 面 的 部 分 ， 我 们 会 展示 如 何 根据 优势 值 来 调整 训练 过 程 。 
不 过 在 那 之 前 ， 我 们 需要 先 能 够 在 自我 对 弃 过 程 中 计算 和 存储 优势 值 。 








12.1.2 ”在 目 我 对 三 过 程 中 计算 优势 值 


要 计算 优势 值 ， 需 要 更 新 第 9 章 中 定义 的 ExperienceCollector 
类 ， 如 代码 清单 12-1 所 示 。 之 前 经 验 缓 冲 区 跟 踊 3 个 并 行 的 数 
组 : states (状态 ) 、actions (行动 ) 和 rewards (收获 ) 。 我 们 可 
以 添加 第 4 个 数组 advantages 优势) 来 跟踪 优势 值 。 填 充 这 个 数组 时 
需要 得 到 每 个 状态 的 估计 值 和 棋局 的 最 终结 果 。 因 为 要 等 到 终 盘 才能 获 
得 棋局 的 最 终结 果 ， 所 以 在 本 期 训练 的 过 程 中 ， 我 们 可 以 先 累积 棋局 状 
态 的 估计 值 ， 等 到 棋局 结束 时 再 把 它们 转换 成 优势 值 。 


代码 清单 12-1 更 新 ExperienceCollector， 添 加 对 优势 值 的 跟踪 功能 











class ExperienceCollector: 
def _ init (self): 
self.states = [] <--- ”这 几 个 数组 可 以 跨越 多 个 训练 期 


self.actions 


self.rewards 


self.advantages = [] 

self. current episode states = [] <--- ”这 几 个 数组 在 每 个 训练 期 结 
束 时 需要 重 轩 

self. current episode _ actions = [] 

self. current episode estimated values = [|] 




















相似 地 ， 我 们 还 需要 更 新 record_decision 方 法 ， 以 在 状态 和 行 
动 参数 之 外 再 增加 一 个 估计 值 参数 ， 如 代码 清单 12-2 所 示 。 








代码 清单 12-2 ”更 新 ExperienceCollector， 存 储 估计 值 











class ExperienceCollector: 


def record decision(self, state, action, 
estimated value=0): 
self. current episode states.append(state) 


self. current episode actions.append(action) 
self. current episode estimated values.append( 
estimated value) 





接着 ， 在 complete_episode 方 法 中 ， 就 可 以 计算 代理 做 出 的 每 个 
决策 所 对 应 的 优势 值 了 ， 如 代码 清单 12-3 所 示 。 

















代码 清单 12-3 ”在 一 个 训练 期 结束 时 计算 优势 值 














class ExperienceCollector: 


def complete episode(self, reward): 
num_states = len(self. current episode states) 
self.states += self. current episode states 
self.actions += self. current episode actions 
self.rewards += [reward for _ in range(num states)] 


for i in range(num states): 
advantage = reward - \ <--- 计算 每 个 决策 的 优势 值 
self. current episode estimated values[i] 
self.advantages .append(advantage) 
self. current episode states = [] <---” 重 置 几 个 当期 数据 缓冲 区 
self. current episode actions = [|] 
self. current episode estimated values = [|] 























我 们 还 需要 更 新 ExperienceBuffer 类 和 combine_experience 畏 


助 函 数 ， 添 加 对 优势 值 的 处 理 逻 辑 ， 如 代码 清单 12-4 所 示 。 








四 





代码 清单 12-4 在 ExperienceBuffer 的 结构 中 添加 优势 值 




















class ExperienceBuffer: 
def init (self, states, actions, rewards, advantages): 
self.states = states 
self.actions = actions 
self.rewards = rewards 
self.advantages = advantages 


def serialize(self, hsfile): 
hsfile.create group('experience') 
hsfile['experience'].create dataset('states', 
data=self. states) 


hsfile['experience'].create dataset('actions ' ， 
data=self.actions) 

hsfile['experience'].create dataset('rewards', 
data=self.rewards) 

hsfile['experience'].create dataset('advantages', 
data=self.advantages) 


def combine experience(collectors): 

combined states = np.concatenate( 
[np.array(c.states) for c in collectors]) 

combined actions = np.concatenate( 
[np.array(c.actions) for c in collectors]) 

combined rewards = np.concatenate( 
[np.array(c.rewards) for c in collectors]) 

combined advantages = np.concatenate([ 

np.array(c.advantages) for c in collectors]) 


return ExperienceBuffer( 
combined_ states, 
combined actions, 
combined _ rewards, 
combined advantages) 





现在 ， 我 们 的 经 验 数 据 类 已 经 可 以 跟踪 优势 值 了 。 并 且 这 几 个 类 仍 
然 可 以 用 在 不 依赖 优势 值 的 技术 中 ， 只 要 在 训练 中 忽略 advantages 绥 
冲 区 中 的 内 容 即 可 。 


12.2 ”为 演员 -评价 学 习 设 计 神 经 网 络 


我 们 在 第 11 章 介绍 过 如 何在 Keras 中 定义 一 个 双 输 入 神经 网 络 。Q 学 
习 网 络 的 两 个 输入 分 别 是 棋盘 状态 和 候选 动作 。 在 演员 -评价 学 习 中 ， 
我 们 需要 的 是 单 输入 、 双 输出 的 网 络 。 它 的 输入 是 棋盘 状态 的 某 种 表示 
形式 ， 而 两 个 输出 分 别 是 各 个 动作 的 概率 分 布 “ 即 演员 ) 和 当前 棋盘 状 

态 的 预期 回报 〈 即 评价 ) 。 





双 输 出 网 络 还 能 带 来 一 个 意外 的 好 处 : 两 个 输出 均 可 以 扮演 对 方 的 


正则 需 。《 第 6 草 中 介绍 过 ， 正 则 化 技术 可 以 用 来 避免 网 络 对 训练 数据 
过 拟 合 。) 想象 一 个 场景 ,棋盘 上 一 组 棋子 正面 临 着 打 吃 的 风险 。 这 个 
情况 与 网 络 的 输出 价值 有 关 ， 因 为 这 时 候 执 子 方 可 能 正面 临 落 后 的 局 

面 。 它 也 和 输出 动作 有 关 ， 因 为 我 们 可 能 会 想 要 吃 掉 或 保护 这 组 棋子 。 
如 果 网 络 前 几 层 学 习 到 了 “ 弱 子 ”检测 功能 ， 那 么 它 与 两 种 输出 都 有 关 。 

训练 两 个 输出 ， 会 要 求 网 络 必须 学 会 东 种 对 两 个 目标 都 有 帮助 的 表示 ， 
这 样 做 音 常 能 改进 模型 的 泛 用 性 ， 有 时 甚至 能 够 提高 训练 的 速度 。 

















第 11 章 介绍 了 Keras 的 函数 式 API， 它 能 够 让 我 们 完全 自由 地 连接 网 
络 的 不 同 层 。 在 这 里 我 们 会 再 次 用 这 套 API 来 构建 图 12-3 所 描述 的 网 
络 。 


OO 当前 棋盘 (编码 
-全 〇 + 一。 为 一 个 张 量 ) 
@@ 








展 平 层 
稠密 层 
稠密 层 稠密 层 
softmax tanh 
0.0110.01 10.01 10.23 |0.01 本 初始 状态 的 预期 收 
各 个 动作 的 概率 分 0.01 1° 29 |0.01 10.01 |0.01 0.61 获 (价值 或 评价 》 
布 〈 策 略 或 演员 ) 0.08 |0.01 |0.01 |0.01 |0.01 


0.01 10.01 10.01 10.01 | 0.19 





0.01 10.01 10.01 10.01 10.01 





图 12-3 一 个 适用 于 围棋 的 演员 -评价 学 习 神经 网 络 。 这 个 网 络 有 一 个 单独 的 输入 ， 接 收 某 种 形 

式 的 当前 棋局 。 网 络 的 输出 有 两 个 : 一 个 表示 它 应 当选 择 哪 一 个 动作 ， 即 策略 输出 ， 或 者 说 演 

员 角 色 ; 另 一 个 表示 当前 棋局 中 哪 一 方 占 优势 ， 即 价值 输出 ， 或 者 说 评论 角色 。 评 论 输出 并 不 
会 用 于 对 全 过 程 ， 但 可 以 在 训练 过 程 中 提供 帮助 
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代码 放 在 init_ac_agent.py 脚 本 中 ， 如 代码 清单 12-5 所 示 。 


代码 清单 12-5 一 个 双 输 出 网 络 ， 包 含 一 个 策略 输出 和 一 个 价值 输出 





from keras.models import Model 
from keras.layers import Conv2D, Dense, Flatten, Input 


board _ input = Input(shape=encoder.shape(), name='board input') 








conv1 = Conv2D(64, (3, 3), <--- 可 以 随意 添加 任意 数量 的 卷 积 层 


padding= ' same '， 





activation='relu')(board input ) 
conv2 = Conv2D(64，(3，3)， 
padding="' same', 
activation='relu')(conv1) 
conv3 = Conv2D(64，(3，3)， 
padding= "same '， 
activation='relu')(conv2) 
flat = Flatten()(conv3) 
processed board = Dense(512)(flat) <--- ”本 例 使 用 尺寸 为 512 的 隐藏 层 。 最 合适 
的 尺寸 需要 通过 反复 试验 找到 。3 个 隐藏 层 的 尺寸 不 必 相 同 


























policy hidden_ layer = Dense( <--- 这 个 输出 产生 策略 函数 
512，activation='relu')(processed _ board ) 
policy _ output = Dense( 
encoder.num points(), activation='softmax' )( 
policy_hidden layer) 


value_hidden layer = Dense( <--- 这 个 输出 产生 价值 函数 
512，activation='relu')( 
processed board ) 

value output = Dense(1, activation='tanh')( 
value_ hidden layer) 





model = Model(inputs=board input, 
outputs=[policy output, value output]) 








这 个 网 络 有 3 个 卷 积 层 ， 各 包含 64 个 过 滤器 。 对 围棋 网 络 来 说 这 个 
规模 是 比较 小 的 ， 它 的 优点 是 可 以 进行 快速 的 训练 。 当 然 ， 和 以 往 一 
样 ， 我 们 勤 励 读 者 去 尝试 不 同 的 网 络 结构 。 





东 略 输出 是 所 有 候选 动作 的 一 个 概率 分 布 。 它 的 维度 和 棋盘 上 的 交 
叉 点 数量 相同 ， 并 且 使 用 softmax 激 活 层 来 确保 策略 输出 的 和 为 1。 


价值 输出 是 一 个 单 值 ， 其 范围 是 -1 一 1。 这 个 输出 的 维度 是 1， 使 用 
一 个 tanh 激 活 层 来 限制 输出 值 范 围 。 


My 


12.3 ”用 演员 -评价 代理 下 棋 


演员 -评价 代理 的 动作 选择 逻辑 与 第 10 章 的 集 略 代理 基本 一 致 ， 
要 改动 两 处 即 可 。 首 先 ， 由 于 模型 现在 需要 产生 两 个 输出 ， 间 
些 新 代码 来 处 理 输出 结果 。 其 次 ， 还 需要 把 估计 值 与 状态 、 行 动 一 起 传 
弟 给 经 验收 集 器 。 而 从 概率 分 布 中 选择 动作 的 过 程 则 与 之 前 一 模 一 样 。 
代码 清单 12-6 展 示 了 修改 后 的 select_move 实 现 。 我 们 把 区 别 于 第 10 章 
策略 代理 的 地 方 单独 做 了 标记 。 























代码 清单 12-6 ”为 演员 -评价 代理 选择 一 个 动作 




















class ACAgent(Agent ) : 


def select move(self, game_state): 
num moves = self.encoder.board width * AN 
self.encoder .board height 


board tensor = self.encoder.encode(game_ state) 
X = np.array([board tensor]) 


actions, values = self.model.predict(X) <--- 由 于 这 是 一 个 双 输 出 
模型 ，predict 函 数 会 返回 一 个 元 组 ， 包 含 两 个 NumPy 数 组 

move_probs = actions[6] <--- predict 是 一 个 批量 调用 ， 可 以 一 次 性 处 
理 多 个 棋盘 状态 ， 所 以 我 们 必须 选择 数组 的 第 一 个 元 素来 获取 所 需 的 概率 分 布 

estimated value = values[6][6] <--- ”价值 用 一 维 向 量 表示 ， 所 以 需 
获取 它 的 第 一 个 元 素 ， 从 而 得 到 一 个 浮 点 数 表示 的 价值 
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eps = 1e-6 
move_probs = np.clip(move probs, eps, 1 - eps) 
move_probs = move probs / np.sum(move_ probs) 


candidates = np.arange(num moves) 
ranked moves = np.random.choice( 
candidates, num moves, replace=False, p=move probs) 
for point idx in ranked moves: 
point = self.encoder.decode point index(point idx) 
move = goboard.Move.play(point) 
move_is valid = game state.is valid move(move) 
fills own eye = is point an_ eyel 
game_state.board, point, 
game_state.next_ player) 
if move_is valid and (not fills own eye): 


if self.collector is not None : 
self.collector.record _ decision( <--- 在 经 验 缓冲 区 中 





引入 估计 值 
state=board tensor， 
action=point idx， 
estimated value=estimated value 


return goboard.Move.play(point) 
return goboard.Move.pass_ turn() 





12.4 用 经 验 数据 训练 一 个 演员 -评价 代理 





演员 -评价 网 络 的 训练 过 程 可 以 看 作 是 第 10 章 的 策略 网 络 与 第 11 章 
的 行动 -价值 网 络 的 综合 体 。 要 训练 一 个 双 输 出 网 络 ， 我 们 需要 为 每 个 
输出 单独 构建 训练 目标 ， 并 选择 独立 的 损失 函数 。 本 节 描 述 如 何 将 经 验 
数据 转换 为 训练 目标 ， 以 及 如 何 使 用 Keras 的 fit 函 数 处 理 多 个 输出 。 





回顾 一 下 我 们 在 策略 梯度 学 习 中 是 如 何 编码 训练 数据 的 。 对 于 任意 
棋局 ， 训 练 目 标 是 一 个 与 棋盘 尺寸 相同 的 辐 量 ， 并 在 所 选择 的 动作 对 应 
的 位 置 上 填 入 1 或 -1， 其 中 1 代表 胜利 ，-1 代 表 失 败 。 在 演员 -评价 学 习 
中 ， 我 们 也 可 以 使 用 与 此 相同 的 编码 方案 来 处 理 训练 数据 ， 但 是 需要 把 
1 或 -1 玲 换 成 动作 对 应 的 优势 值 。 优 势 值 与 最 终 收 获 的 正 负 性 相同 ， 所 
以 游戏 决策 的 概率 走 同 与 简单 的 策略 学 习 是 一 致 的 。 但 是 它 会 更 多 地 选 
择 那 些 比 较 重 要 的 动作 ， 而 很 少 涉及 优势 值 接近 于 0 的 动作 。 











价值 输出 的 训练 目标 是 总 的 收获 值 。 这 和 Q 学 习 的 训练 目标 完全 一 
致 。 图 12-4 展 示 了 这 个 网 络 的 训练 步骤 。 


当 网 络 有 多 个 输出 时 ， 可 以 为 每 个 输出 选择 不 同 的 损失 函数 。 这 里 


我 们 为 策略 输出 选择 分 类 交叉 炳 损失 阔 数 ， 为 价值 输出 选择 均 方 误差 损 
失 函 数 。( 要 想 了 解 这 样 选择 的 原因 ， 可 以 参考 第 10 章 和 第 11 章 的 讨 


Ws ) 








我 们 还 要 用 到 一 个 Keras 的 新 特性 : 损失 权重 (loss weight) 。 默 认 
情况 下 ，Keras 会 将 所 有 输出 的 损失 函数 值 加 起 来 ， 得 到 总 的 损失 函 
数 。 但 如 果 指 定 了 损失 权重 参数 ，Keras 就 会 根据 给 出 的 权重 调整 每 个 
损失 函数 的 值 再 进行 累加 。 这 样 束 允许 我 们 调整 每 个 输出 的 相对 重要 
性 。 在 我 们 的 实验 中 ， 我 们 发 现价 值 函数 的 损失 比 集 略 损失 更 大 ， 所 以 
把 价值 损失 缩小 一 半 。 在 处 理 不 同 的 具体 网 络 或 训练 数据 时 ， 可 能 需要 
相应 地 调整 损失 权重 。 








将 优势 值 填 入 所 选 动作 对 应 
的 位 置 ， 其 他 位 置 值 为 0。 











人 用 本 让 下 2 全 二 时 二; 
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一 慎 民 一笑 导 一 居民 一 各区 一 









演员 -评价 网 络 








游戏 状态 





价值 输出 
胜局 值 为 1， 
由 局 人 1， 一 


图 12-4 演员 -评价 学 习 的 训练 步骤 。 这 个 神经 网 络 有 两 个 输出 : 一 个 输出 策略 ， 另 一 个 输出 价 
值 。 两 者 都 有 各 自 的 训练 目标 。 策 略 输 出 的 训练 目标 是 与 棋盘 尺寸 相同 的 向 量 ， 向 量 中 所 选 动 
作对 应 的 位 置 填 入 由 这 个 动作 计算 出 的 优势 值 ， 而 其 他 位 置 都 填 入 0。 价 值 输出 的 训练 目标 是 棋 









































局 的 最 终结 果 





Keras 在 每 次 调用 fit 函 数 时 都 会 输出 计算 出 的 损失 值 。 对 于 双 输 出 
网 络 ， 它 会 分 别 输出 两 个 损失 值 。 我 们 可 以 检查 它们 的 数值 是 否 相 差 过 
大 。 如 果 其 中 一 个 损失 值 远大 于 男 一 个 ， 请 考虑 调整 权重 ， 但 不 要 过 于 
追求 精确 。 


代码 清单 12-7 展 示 了 如 何 将 经 验 数 据 作 为 训练 数据 进行 编码 ， 接 着 
对 训练 目标 调用 fit 困 数 。 这 一 程序 的 结构 与 第 10 音 和 第 11 章 中 的 
train 实 现 类 似 。 











代码 清单 12-7 ”为 演员 -评价 代理 选择 一 个 动作 





class ACAgent(Agent ) : 


def train(self，experience，1Lr=6.1，batch_size=128) : <--- 1Lr 和 batc 
h_size 是 优化 器 的 微调 参数 ， 参 见 第 16 章 中 的 详细 讨论 
opt = SGD(lr=1r) 
self.model.compile( 
optimizer=opt， 
loss=['categorical crossentropy', "mse']， <--- 与 第 16 章 相同 
，Categorical_ crossentropy 用 于 策略 输出 。 与 第 11 章 相同 ，mse 用 于 价值 输出 。 这 里 的 
顺序 与 代码 清单 12-5 的 Model 构 造 函数 中 的 顺序 相同 
loss_weights=[1.6，6.5]) <--- 策略 输出 采用 权重 1.6， 价 值 输出 采用 权重 
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n = experience.states.shape[6] 
num moves = self.encoder.num points() 
policy target = np.zeros((n, num moves)) 


value target = np.zeros((n,)) 
for i in range(n): 
action = experience.actions[i] <--- 这 里 使 用 的 是 与 第 16 章 相同 
的 编码 方案 ， 但 是 根据 优势 值 增加 了 权重 
policy target[i][action] = experience.advantages[i] 
reward = experience.rewards[i] <--- 这 里 使 用 的 是 与 第 11 章 相同 



























































的 编码 方案 








value target[i] = reward 


self.model .fit( 
experience. states, 
[policy target, value target], 
batch size=batch size, 
epochs=1) 





现在 所 有 的 “拼图 ”都 已 经 准备 完毕 ， 让 我 们 尝试 完整 的 演员 -评价 
学 习 流程 。 可 以 先 从 9x9 机 器 人 开始 ， 这 样 可 以 更 迅速 地 看 到 结果 。 训 
练 周期 如 下 。 





(1) 生成 每 批 次 5 000 局 的 自我 对 穿 棋谱 数据 。 


(2) 每 一 批 数 据 生 成 之 后 ， 用 它们 来 训练 代理 ， 并 与 前 一 个 版 本 
进行 对 比 。 














(3) 如 果 新 的 机 器 人 能 够 在 100 局 比赛 中 赢得 前 一 版 本 且 超 过 60 
次 ， 就 意味 着 代理 的 改进 成 功 了 ! 现在 从 新 的 机 器 人 人 开始， 重复 上 述 整 


个 训练 过 程 。 





(4) 如 果 新 的 机 器 人 获胜 少 于 60 局 ， 就 重新 生成 一 批 自我 对 弈 棋 
局 数据 并 重新 训练 。 继 续 训 练 ， 直 至 新 的 机 髓 人 足够 强大 。 


这 里 采用 的 100 局 60 胜 的 数字 是 比较 武断 的 ， 它 只 是 一 个 比较 好 看 
的 整数 和 而已， 能够 让 我 们 有 足够 的 信心 认为 机 器 人 已 经 真得 变 强 了 而 不 





是 伐 垃 。 


首先 我 们 用 init_ac_agent 脚 本 初始 化 一 个 机 器 人 “如 代码 清单 12-5 
所 示 ) : 


python init ac agent.py --board-size 9 ac v1.hdf5 


运行 这 段 命令 之 后 ， 应 当 会 得 到 一 个 新 文件 ac_vl.hdf5， 其 中 包含 
新 机 器 人 的 各 个 权重 。 这 时 候 机 器 人 的 动作 和 价值 估计 基本 上 都 是 随机 
的 。 现 在 我 们 可 以 开始 生成 自我 对 穿 数据 了 : 


python self play ac.py \ 
--board-size 9 \ 


--learning-agent ac v1.hdf5 \ 
--num-games 5666 \ 
--experience-out exp_6661.hdf5 





如 果 无 法 访问 高 速 GPU， 这 时 可 以 出 去 喝 杯 咖啡 或 者 遇 交 狗 了 。 当 
self_play 脚 本 完成 时 ， 输 出 应 该 如 下 所 示 : 





Simulating game 1/5606... 
9 OOXXXXXXX 
OOOX .XX .X 
OXXXXOOXX 
OXXXXXOX . 
OOOOOXOXX 
000 .000XO 
000000000 
.00.000.0 
O000000000 
ABCDEFGH]J 
W+28.5 


POUWPUoOoNOY 


Simulating game 50600/5666... 
9 X.X.XXXXX 
8 XXXXX .XXX 
7 .X.XXXXOoO 


XXXX.Xo .0 
XXXXXXOOO 
XOOOOOOXO 
XOOOXXXXO 
0 .0 .0OXXXX 
O0000X.X. 
ABCDEFGHJ 
B+15.5 


POUWPU aA 





我 们 会 得 到 一 个 exp_0001.hdf5 文 件 ， 其 中 包含 了 一 个 大 批量 的 棋 
谱 。 下 一 步 开始 训练 : 
python train ac.py \ 


--learning-agent bots/ac v1.hdf5 \ 
--agent-out bots/ac v2.hdf5 \ 


--lr 60.61 --bs 10624 \ 
eXxp_6661.hdf5 





这 个 命令 会 调用 存储 在 ac_v1.hdf5 中 的 神经 网 络 ， 并 针对 
exp_0001.hdf5 中 的 数据 ， 进 行 一 个 周期 的 训练 ， 把 更 新 的 代理 保存 到 
ac_v2.hdf5 文 件 中 。 优 化 器 采用 的 学 习 率 为 0.01， 批 次 尺寸 为 1 024。 它 
的 输出 应 当 如 下 所 示 : 


Epoch 1/1 


574234/574234 [ ] - 15s 26us/step - loss: 
ww 1.0277 - dense 3 loss: 0.6463 - dense 5 loss: 0.7750 





注意 ， 损 失 函 数 现在 分 为 两 个 值 : dense_3_loss 和 
dense_ 5_ loss， 分 别 对 应 策略 输出 和 价值 输出 。 


在 此 之 后 ， 可 以 用 eval_ac_bot.py 将 更 新 的 机 器 人 与 前 一 版 进行 比 


较 : 


python eval ac bot.py \ 
--agent1 bots/ac v2.hdf5 \ 


--agent2 bots/ac v1.hdf5 \ 
--num-games 106 


输出 应 当 类 似 如 下 所 示 : 


Simulating game 106/166... 
9 O00XXXXX. 

8 .OOX.XXXX 
7 OOXXXXXXX 
6 
5 


.OXX . XXXX 
OOOXXX . XX 
4 0.0X.XX.X 
3 OOXXXXXXX 
2 OO0XX .XXXX 
1 OXXXXXXX 。 
ABCDEFGHJ 
B+31 .5 
Agent 1 record: 66/166 














本 例 中 的 输出 恰好 显示 100 局 中 局 了 60 局 ， 这 样 我 们 就 有 理由 相信 
机 絮 人 已经 学 到 了 一 些 有 用 的 东西 。( 当 然 ， 这 只 是 一 个 示例 输出 ， 正 
常情 况 下 实际 结果 会 略 有 不 同 。) 由 于 ac_v2 机 器 人 比 ac_v1 明 显 更 
强 ， 我 们 就 可 以 切换 到 ac_v2 来 生成 新 的 棋局 数据 : 





python self play ac.py \ 
--board-size 9 \ 
--learning-agent ac v2.hdf5 \ 
--num-games 5666 \ 
--experience-out exp_6662.hdf5 





这 一 步 完 成 后 ， 可 以 再 次 进行 训练 和 评估 : 





python train ac.py \ 
--learning-agent bots/ac v2.hdf5 \ 
--agent-out bots/ac v3.hdf5 \ 

--lr 60.61 --bs 10624 \ 

eXxp_6662 .hdf5 

python eval ac bot.py \ 


--agent1 bots/ac_v3.hdf5 \ 
--agent2 bots/ac_v2.hdf5 \ 
--num-games 106 


但 这 一 次 并 没有 像 上 次 那么 成 功 : 


ac_v3 机 器 人 在 100 局 比赛 中 只 说 了 ac_v2 机 器 人 51 次 。 这 个 结果 很 
难说 明 ac_v3 比 ac_v2 强 ， 这 时 最 保险 的 结论 应 当 是 它们 的 强度 差 不 
多 。 但 请 不 要 绝望 ， 我 们 还 可 以 生成 更 多 的 训练 数据 ， 再 试 一 次 : 











python self play ac.py \ 
--board-size 9 \ 


--learning-agent ac v2.hdf5 \ 
--num-games 5666 \ 
--experience-out exp _ 8862a.hdf5 





train_ac 脚 本 可 以 在 命令 行 中 接收 多 个 训练 数据 文件 : 


python train ac.py \ 
--learning-agent ac v2.hdf5 \ 
--agent-out ac v3.hdf5 \ 


--lr 60.61 --bs 10624 \ 
exp_6662.hdf5 exp_6662a.hdf5 





每 次 生成 一 批 新 数据 后 ， 都 将 它 与 ac_v2 再 次 进行 对 比 。 在 本 书 的 
实验 中 ， 我 们 用 了 3 批 数 据 (每 批 5 000 局 ， 一 共 15 000 局 比赛 ) 才 得 到 
了 理想 的 结果 : 


Agent 1 record: 62/166 


成 功 了 ! 现在 比 ac_v2 获 胜 了 62 局 ， 我 们 可 以 有 信心 说 ac_v3 比 





ac_Vv2 强 了 。 这 时 候 我 们 就 可 以 切换 使 用 ac_v3 来 生成 目 我 对 奔 数 气 ， 
并 继续 重复 整个 训练 周期 了 。 


我 们 并 不 确定 只 用 这 个 演员 -评价 实现 来 训练 围棋 机 器 人 能 够 得 到 
多 强 的 结果 ， 但 是 我 们 已 经 证 明 ， 通 过 这 个 训练 可 以 让 机 器 人 学 会 一 些 
基本 策略 ， 它 的 强度 应 该 有 一 个 上 限 。 将 强化 学 习 与 一 种 树 搜索 进行 深 
度 集成 ， 可 以 训练 出 比 任 何人 类 棋 手 都 强 的 机 器 人 。 我 们 将 在 第 14 章 介 
绍 这 种 技术 。 


12.5 ”小结 


。 演员 -评价 学 习 是 一 种 强化 学 习 技术 ， 可 以 同时 学 习 一 个 集 略 函数 
和 一 个 价值 函数 。 集 略 函 数 告诉 我 们 如 何 做 出 决策 ， 而 价值 函数 则 
可 以 帮助 我 们 改进 训练 过 程 。 任 何 能 够 应 用 策略 梯度 学 习 的 问题 ， 
都 可 以 应 用 演员 -评价 来 进行 学 习 ， 并 且 演 员 - 评 价 学 习 通 第 表现 得 
更 为 稳定 。 

优势 值 指 的 是 代理 所 见 的 实际 收获 与 训练 中 某 一 点 的 预期 收获 的 差 
值 。 对 棋 类 游戏 来 说 ， 这 个 差 值 就 是 实际 比赛 结果 《胜利 或 失败 ) 
与 期 望 值 《代理 的 价值 模型 估计 的 结果 ) 的 兰 值 。 

优势 值 可 以 帮助 我 们 识别 一 局 比赛 中 更 重要 的 那些 决策 步骤 。 如 采 
学 习 代理 获得 了 胜利 ， 那 么 在 平局 或 败局 中 所 采取 的 动作 会 有 更 大 
的 优势 值 ， 而 在 局 势 基本 确定 的 时 候 ， 优 势 值 就 会 接近 于 0 了 。 
Keras 顺 序 模型 可 以 有 多 个 输出 。 在 演员 -评价 学 习 中 ， 我 们 可 以 用 
Keras 创 建 一 个 神经 网 络 来 同时 模拟 集 略 函数 与 价值 函数 。 
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本 书 读 到 这 里 ， 读 者 应 当 已 经 对 来 日 经 典 树 搜索 、 机 器 学 习 以 及 强 
化 学 习 的 诸多 AI 技术 有 所 掌握 了 。 它 们 都 是 强大 的 技术 ， 但 各 有 各 的 局 
限 。 要 制作 一 个 真正 强大 的 围棋 AI， 我 们 需要 把 到 目前 为 止 学 到 的 所 有 
技术 有 机 地 整合 起 来 。 把 这 些 组 件 集成 到 一 起 是 一 项 大 工程 。 本 书 的 第 
三 部 分 介绍 AlphaGo 的 架构 。 在 本 书 的 结尾 ， 我 们 还 将 学 习 AlphaGo 
Zero 简 洁 而 优雅 的 设计 ， 它 也 是 AlphaGo 到 目前 为 止 最 强大 的 版 本 。 








第 13 章 ”AlphaGo: 全 部 集结 


本 章 主要 内 容 


。 深入 介绍 AlphaGo 背 后 的 原理 ， 它 能 够 指导 围棋 机 器 人 获得 超越 人 
类 棋 手 的 强度 。 


。 利用 树 搜索 、 监 督学 习 和 强化 学 习 来 构建 一 个 AlphaGo 机 器 人 。 
。 实现 一 个 你 自己 的 类 AlphaGo 引 擎 。 


2016 年 ，DeepMind 的 围棋 机 器 人 AlphaGo 在 与 李 世 石 的 第 二 局 对 决 
中 第 37 手 落 子 的 瞬间 ， 整 个 围棋 界 都 震惊 了 。 评 棋 人 Michael 
Redmond， 一 位 有 着 近 千 场 顶 级 比赛 经 验 的 职业 棋 手 ， 在 直播 中 目 瞪 口 
采 ， 他 甚至 把 这 颗 棋子 从 棋盘 上 拿 下 来 观察 周边 的 情况 ， 仿 佛 要 确认 
AlphaGo 是 否 下 错 了 棋 。 第 二 天 ，Redmond 告 诉 美国 围棋 E 杂 志 : “我 到 
现在 还 不 明白 这 步 棋 背后 的 道理 。” 李 世 石 这 位 统治 了 世界 棋 坛 十 年 的 
大 师 ， 花 了 12 分 钟 来 研究 这 一 棋局 ， 之 后 才 做 出 回应 。 图 13-1 展 示 了 
这 手 传说 中 的 沙子 。 
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图 13-1 ”AlphaGo 在 对 阵 李 世 石 的 第 二 局 中 做 出 的 传奇 落 子 动作 。 这 手 落 子 震惊 了 许多 职业 棋 手 














这 手 落 子 完 全 违背 了 传统 的 围棋 理论 。 对 角落 子 ， 或 者 叫 尖 冲 ， 会 
引诱 白 子 沿 着 边界 继续 长 出 ， 并 做 出 一 道 实 墙 。 人 们 通常 认为 这 是 一 个 
五 五 开 的 交换 : 白 方 获得 边界 的 空 点 ， 而 黑 方 则 获得 对 棋盘 中 央 区 域 的 
影响 力 。 但 是 白 棋 落 在 离 边界 4 格 的 地 方 ， 一 旦 让 黑 方 做 出 实 墙 ， 黑 方 
会 得 到 过 多 的 地 盘 。〔 我 们 需要 对 正在 阅读 的 围棋 高 手表 示 歉 意 ， 这 里 
的 描述 做 了 过 多 的 简化 。) 第 5 行 的 尖 剖 看 起 来 有 些 业 余 一 一 至 少 
在 “AlphaGo 教 授 ” 最 终 五 局 四 胜 战胜 这 位 传奇 棋 手 之 前 看 来 确实 如 此 。 
在 这 一 步 尖 冲 之 后 ，AlphaGo 还 做 出 了 许多 出 人 意料 的 落 子 动作 。 一 年 
之 后 ， 上 到 顶级 职业 棋 手 ， 下 至 业余 俱乐部 棋 手 ， 所 有 人 都 在 尝试 模仿 
AlphaGo 所 采用 的 动作 。 




















本 章 我 们 将 学 习 组 成 AlphaGo 的 所 有 结构 ， 并 了 解 它 的 工作 机 制 。 
AlphaGo 是 基于 职业 棋谱 的 监督 深度 学 习 《 即 我 们 在 第 5 章 至 第 8 章 中 所 











学 的 ) 与 基于 自我 对 春 数 据 的 深度 强化 学 习 《〈 即 第 9 章 至 第 12 章 所 介绍 


的 ) 





的 一 种 巧妙 结合 ， 然 后 再 创造 性 地 用 这 两 种 深度 学 习 网 络 来 改进 树 





搜索 。 读 者 可 能 会 感觉 惊奇 ， 原 来 我 们 已 经 对 AlphaGo 的 所 有 组 件 都 有 
所 了 解 了 。 更 精确 地 说 ， 我 们 将 要 详细 介绍 AlphaGo 系 统 的 如 下 流程 工 


作 。 





首先 开始 训练 两 个 深度 卷 积 神经 网 络 ( 即 策略 网 络 )， 用 于 动作 预 
测 。 在 这 两 个 网 络 架构 中 ， 其 中 一 个 深度 更 深 ， 能 够 产生 更 准确 的 
结果 ， 而 另 一 个 则 更 浅 ， 可 以 更 快 地 进行 评估 。 我 们 将 它们 分 别称 
为 强 策 略 网 络 和 快 策略 网 络 。 

强 集 略 网 络 和 快 策略 网 络 采 用 了 更 加 复杂 的 棋盘 编码 器 ， 包 含 48 个 
特征 平面 。 它 们 的 网 络 架 构 深度 也 比 我 们 在 第 6 章 和 第 7 章 中 所 见 的 
网 络 更 深 。 不 过 除 此 之 外 ， 它 们 看 起 来 还 是 让 人 觉得 很 熟悉 的 。 
13.1 节 会 介绍 AlphaGo 的 策略 网 络 架 构 。 

在 13.2 节 中 ， 在 完成 了 策略 网 络 的 第 一 个 训练 步骤 之 后 ， 我 们 将 会 
用 强 策 略 网 络 作为 初始 点 来 进行 自我 对 三 。 如 果 用 大 量 的 算 力 来 执 
行 这 一 步 ， 将 会 让 机 器 人 得 到 巨大 的 改进 。 

在 13.3 节 中 ， 我 们 将 使 用 这 个 强 自 我 对 弈 网 络 来 生成 一 个 价值 网 
络 。 这 样 惑 完成 了 网 络 训 练 阶段 ， 之 后 就 不 用 再 做 任何 深度 学 习 
于 

要 进行 一 局 围棋 对 询 ， 可 以 把 树 搜索 作为 下 棋 集 略 的 基础 。 但 与 第 
4 章 的 简单 蒙特 卡 洛 推演 法 不 同 的 是 ， 我 们 需要 使 用 快 策略 网 络 来 
指导 接 下 来 的 步骤 。 另 外 ， 还 需要 参考 价值 函数 的 输出 ， 来 平衡 这 
个 树 搜索 算法 的 输出 。 我 们 会 在 13.4 节 中 介绍 这 种 创新 技术 。 

从 训练 策略 网 络 到 自我 对 三 ， 再 到 使 用 超越 人 类 棋 手 的 搜索 树 来 下 
棋 的 整个 过 程 ， 都 需要 巨大 的 计算 资源 和 计算 时 间 。13.5 节 会 给 出 
几 点 思考 ， 解 释 AlphaGo 如 何 达到 和 它 所 具有 的 强度 ， 以 及 在 进行 自 
己 的 实验 时 合理 的 预期 程度 。 























图 13-2 归 纳 了 我 们 刚刚 列 出 的 整个 流程 。 在 本 章 中 ， 我 们 会 深入 讨 
论 图 中 的 各 个 部 分 ， 并 在 各 节 中 提供 更 多 的 细节 。 


首先 从 数 以 百 万 计 的 人 类 高 手 的 棋谱 开始 。 













训练 两 个 不 同 的 动作 预 讽 
网 络 : 一 个 更 大 更 准确 ， 
另 一 个 更 小 更 迅速 。 


通过 数 以 百 万 计 的 自我 对 弈 
棋局 来 改进 策略 网 络 。 





自我 对 弈 的 同时 还 提供 了 
用 来 训练 价值 网 络 的 数据 。 


超越 人 类 的 围棋 机 器 人 


AlphaGo 在 棋局 中 选择 动作 时 ， 会 同时 使 用 3 个 网 络 的 结果 。 





图 13-2 ”如 何 训练 AlphaGo AI 背后 的 3 个 神经 网 络 。 首 先 ， 从 人 类 棋谱 集合 开始 ， 训 练 两 个 神经 

网 络 来 预测 下 一 步 动作 : 一 个 网 络 更 小 更 迅速 ， 而 另 一 个 更 大 更 准确 。 接 着 ， 我 们 可 以 继续 通 

过 上 自我 对 琵 来 改进 较 大 网 络 的 性 能 。 自 我 对 琵 同 时 也 为 训练 一 个 价值 网 络 提供 了 数据 。 最 后 ， 
AlphaGo 会 在 一 个 树 搜索 算法 中 同时 采用 这 3 个 网 络 ， 得 到 极 强 的 对 弈 表现 

















13.1 为 AlphaGo 训 练 深度 神经 网 络 


在 前 面 的 介绍 中 我 们 已 经 了 解 到 ，AlphaGo 使 用 了 3 个 神经 网 络 : 2 
个 策略 网 络 和 1 个 价值 网 络 。 虽 然 看 起 来 有 点 多 ， 但 在 本 市 中 我 们 将 会 








看 到 ， 这 几 个 网 络 以 及 它们 的 输入 特征 在 概念 上 是 很 接近 的 。 而 关于 
AlphaGo 所 用 的 深度 学 习 技 术 ， 最 令 人 人 慰 奇 的 地 方 反而 是 我 们 对 它们 的 
熟悉 程度 ， 本 书 在 第 5 章 至 第 12 章 已 经 对 它们 做 了 大 量 的 介绍 。 在 深入 


外 多 





这 几 个 神经 网 络 的 构建 和 训练 的 细 市 之 前 ， 让 我 们 先 讨论 一 下 它们 


在 AlphaGo 系 统 中 所 扮演 的 角色 。 





快 策略 网 络 一 一 这 个 围棋 动作 预测 网 络 与 第 7 章 和 第 8 章 中 训练 的 网 
络 有 相似 的 规模 。 它 的 目的 并 不 是 成 为 最 准确 的 动作 预测 器 ， 而 是 
在 保证 足够 好 的 预测 准确 率 的 同时 能 够 非常 迅速 地 做 出 动作 预测 。 
13.4 节 介绍 的 树 搜 索 推演 过 程 会 使 用 这 个 网 络 一 一 而 我 们 已 经 在 第 
4 章 中 了 解 到 ， 在 树 搜索 中 要 做 到 基本 可 用 的 程度 ， 推 演 时 必须 能 
够 迅速 创建 大 量 的 网 络 。 我 们 不 会 对 这 个 网 络 做 太 深 入 的 讨论 ， 而 
会 将 更 多 的 精力 放 在 下 面 两 个 网 络 上 。 

强 策略 网 络 一 一 这 个 动作 预测 网 络 的 优化 目标 是 准确 率 ， 而 不 是 速 
度 。 它 是 一 个 卷 积 网 络 ， 其 架构 比 快 策略 网 络 的 要 深 很 多 ， 而 且 动 
作 预 测 的 效果 比 快 策略 网 络 好 两 倍 。 和 快 策略 网 络 一 样 ， 这 个 网 络 
也 是 用 人 工 棋谱 数据 训练 得 出 的 ， 这 一 点 与 第 7 章 介 绍 的 相同 。 训 
练 好 这 个 网 络 之 后 ， 就 可 以 把 它 作 为 起 始点 来 进行 自我 对 询 ， 并 采 
用 第 9 章 和 第 10 章 中 介绍 的 强化 学 习 技 术 进 行 改良 。 这 个 过 程 能 够 
让 强 策 略 网 络 变 得 更 加 强大 。 

价值 网 络 一 一 强 策 略 网 络 进行 的 自我 对 弃 产 生 了 一 个 新 的 数据 集 ， 
可 以 用 来 训练 一 个 价值 网 络 。 有 具体 来 说 ， 我 们 将 采用 这 些 棋局 的 输 
出 ， 以 及 第 11 章 和 第 12 章 中 介绍 的 技术 ， 来 学 习 一 个 价值 函数 。 它 
会 在 13.4 市 中 扮演 关键 角色 。 




















13.1.1 AlphaGo 的 网 络 架 构 


下 一 


前 ， 


现在 我 们 已 经 基本 了 解 了 这 3 个 深度 神经 网 络 在 AlphaGo 中 的 作用 ， 
步 接 着 展示 如 何在 Python 的 Keras 库 构建 它们 。 在 深入 讨论 代码 之 
我 们 先 概述 这 几 个 网 络 的 架构 ， 如 下 所 示 。 如 果 读 者 需要 温习 卷 积 








网 络 的 术语 ， 请 再 次 阅读 第 7 章 。 


强 策 略 网 络 是 一 个 13 层 卷 积 网 络 。 这 13 层 都 产 出 19x19 的 过 滤器 ， 
也 就 是 说 ， 在 整个 网 络 中 ， 我 们 都 保留 了 初始 的 棋盘 尺寸 。 与 第 7 
章 一 样 ， 我 们 需要 把 这 个 网 络 的 输入 进行 对 齐 〈pad) 操作 。 第 一 
个 卷 积 层 的 核心 尺寸 是 5， 而 后 面 的 所 有 层 的 核心 尺寸 都 是 3。 最 后 
一 层 采 用 softmax 激 活 函 数 ， 并 且 有 一 个 输出 过 滤器 。 前 12 层 都 采 
用 ReLU 激 活 函 数 ， 且 各 有 192 个 输出 过 滤器 。 

价值 网 络 是 一 个 16 层 卷 积 网 络 。 它 的 前 12 层 与 强 策略 网 络 完 全 一 
致 。 第 13 层 是 一 个 额外 的 卷 积 层 ， 与 第 2 一 12 层 绪 构 一 致 。 第 14 层 
是 一 个 核心 尺寸 为 1、 有 一 个 输出 过 滤器 的 卷 积 层 。 网 络 最 后 以 两 
个 稠密 层 结束 ， 一 个 有 256 个 输出 ， 采 用 ReLU 激 活 函数 ;， 另 一 个 只 
有 单个 输出 ， 并 采用 tanh 激 活 函 数 。 











可 以 看 到 ， 在 AlphaGo 中 策略 网 络 和 价值 网 络 采 用 的 正 是 第 6 章 所 介 








绍 的 深度 卷 积 神经 网 络 。 这 两 个 网 络 非常 相似 ， 我 们 甚至 可 以 直接 用 一 
个 Python 函数 来 定义 它们 。 在 此 之 前 ， 我 们 先 看 看 Keras 的 一 种 特殊 用 


法 ， 








它 可 以 显 普 地 缩短 网 络 的 定义 。 第 7 章 中 讲 过 ， 我 们 可 以 使 用 Keras 








的 ZeroPadding2D 实 用 工具 层 来 对 齐 输入 图 像 。 这 样 做 完全 没 问 题 ， 但 
如 果 把 它 的 功能 移入 Conv2D 层 中 ， 就 能 在 模型 定义 时 节省 许多 笔墨 。 

在 价值 网 络 和 策略 网 络 中 ， 可 以 对 齐 每 个 卷 积 层 的 输入 ， 使 它们 的 输出 
过 滤器 的 尺寸 与 输入 相同 〈19x19) 。 例 如 ， 按 照 我 们 以 往 的 做 法 ， 第 1 
层 有 19x19 输 入 ， 第 2 层 核心 尺寸 为 5， 输 出 是 19x19 过 滤器 ， 需 要 将 第 1 





层 对 齐 成 23x23 的 图 像 。 而 现在 我 们 可 以 直接 让 卷 积 层 维 持 输 入 尺寸 ， 

只 需 在 定义 卷 积 层 时 提供 参数 padding='same'， 它 就 能 够 自己 处 理 对 

齐 操作 了 。 有 了 这 种 快捷 定义 ， 接 下 来 我 们 就 可 以 方便 地 定义 AlphaGo 

的 策略 网 络 与 价值 网 络 所 共有 的 11 个 层 ， 如 代码 清单 13-1 所 示 。 读 者 可 

以 在 GitHub 代 码 库 中 的 dlgo.networks 模 块 中 的 alphago.py 文 件 中 找到 这 个 








代码 清单 13-1 ”为 AlphaGo 的 策略 网 络 和 价值 网 络 初 始 化 神经 网 络 








from keras.models import Sequential 
from keras.layers.core import Dense, Flatten 
from keras.layers.convolutional import Conv2D 





def alphago model(input shape, is policy net=False, <--- 这 个 布尔 值 选 项 
用 来 在 初始 化 时 指定 是 策略 网 络 还 是 价值 网 络 
num filters=192， <--- 除 最 后 一 个 卷 积 层 之 外 ， 所 有 层 的 过 








滤器 数量 都 相同 
first_kernel_size=5， 
other kernel size=3): <--- 第 1 层 的 核心 尺寸 为 5， 其 他 层 


model = Sequential() 
model.add( 
Conv2D(num filters, first kernel size, input shape=input shape, 
padding="' same', 
data_format= ' channels first', activation='relu')) 


for i in range(2, 12): <--- AlphaGo 的 策略 网 络 和 价值 网 络 的 前 12 层 完全 一 





致 
model.add( 
Conv2D(num filters, other kernel size, padding="'same', 
data_ format='channels first', activation='relu')) 











注意 ， 我 们 还 没有 指定 第 1 层 的 输入 形状 。 这 是 因为 这 个 形状 在 集 
略 网 络 和 价值 网 络 中 略 有 不 同 。 我 们 可 以 在 13.1.2 节 介 Re 盘 
编码 器 的 代码 中 看 到 这 个 区 别 。 继 续 mode1 的 定义 ， 我 们 还 差 一 个 最 





郑 积 层 束 能 完成 强 集 略 网 络 的 定义 ， 如 代码 清单 13-2 所 示 。 








代码 清单 13-2 ”在 Keras 中 创建 AlphaGo 的 强 策略 网 络 





if is policy_ net: 
model.add( 
Conv2D(filters=1, kernel size=1, padding="'same', 


data_format= ' channels first', activation="'softmax')) 
model.add(Flatten()) 
return model 








可 以 看 到 ， 最 后 需要 添加 一 个 Flatten 层 来 展 平 前 面 的 预测 输出 ， 
并 确保 与 第 5 章 至 第 8 半 中 定义 的 模型 的 一 致 性 。 











如 果 想 要 返回 的 是 AlphaGo 的 价值 网 络 ， 可 以 再 添加 两 个 Conv2D 
层 、 一 个 Flatten 层 和 两 个 Dense 层 ， 然 后 将 它们 连接 起 来 ， 如 代码 清 
单 13-3 所 示 。 























代码 清单 13-3 ”在 Keras 中 构建 AlphaGo 的 价值 网 络 











else: 
model.add( 
Conv2D(num filters, other kernel size, padding="'same', 
data_format= ' channels_ first', activation='relu')) 
model.add( 


Conv2D(filters=1, kernel size=1, padding='same', 
data_format='channels first', activation='relu')) 
model.add(Flatten()) 
model.add(Dense(256, activation='relu')) 
model.add(Dense(1, activation='tanh')) 
return model 





这 里 我 们 不 具体 讨论 快 策略 网 络 的 架构 。 快 策略 网 络 的 输入 特征 定 
义 与 网 络 染 构 有 更 多 技术 细节 ， 但 并 不 能 帮助 我 们 加 深 对 AlphaGo 系 统 
的 理解 。 所 以 如 果 读 者 想 要 进行 自己 的 试验 ， 完 全 可 以 直接 采用 我 们 在 


dlog.networks 模 块 中 已经 定义 好 的 网 络 ， 例 如 small、medium 
或 large。 快 策略 网 络 的 主要 目的 是 构建 一 个 比 强 策略 网 络 更 小 的 网 
络 ， 能 够 进行 快速 评估 。 接 下 来 我 们 会 深入 了 解 训 练 过 程 的 细节 。 


13.1.2 AlphaGo 棋 盘 编 码 器 


现在 我 们 已 经 了 解 了 AlphaGo 使 用 的 所 有 网 络 ， 下 面 讨论 一 下 
AlphaGo 如 何 对 棋盘 数据 进行 编码 。 在 第 6 章 和 第 7 章 中 我 们 已 经 实现 了 
不 少 棋盘 编码 器 ， 包 括 oneplane、sevenplane 和 simple， 这 些 编码 器 
都 存放 在 dlgo.encoders 模 块 中 。AlphaGo 所 使 用 的 特征 平面 会 比 它们 更 
复杂 一 些 ， 但 也 是 这 些 已 知 编码 器 的 自然 延续 。 





AlphaGo 策 略 网 络 所 用 的 棋盘 编码 器 有 48 个 特征 平面 ， 而 它 的 价值 
网 络 还 需要 再 添加 一 个 平面 。 这 48 个 平面 包含 11 种 概念 ， 其 中 一 部 分 是 
我 们 已 经 见 过 的 ， 其 他 则 是 新 的 ， 我 们 会 逐一 详细 讨论 。 总 的 来 说 ， 与 
以 往 的 编码 器 相 比 ，AlphaGo 更 多 地 利用 了 围棋 专 有 的 定式 。 最 典型 的 
例子 就 是 在 特征 集合 中 引入 了 征 子 和 引 征 概念 《参见 图 13-3) 。 





























白 方 回合 。 和 白 子 能 够 避免 被 吃 掉 吗 ? 
如 果 白 方 继续 这 样 落 子 ， 最 终 它们 会 
撞 到 棋盘 边 角 ， 届 时 黑 方 会 把 它们 全 
部 吃 掉 。 这 种 棋 称 为 征 子 。 


















































那么 这 种 情况 又 如 何 呢 ? 这 个 白 方 可 以 连接 上 这 个 多 出 来 的 白 子 ， 
多 出 来 的 白 子 是 否 有 帮助 ? i 这 个 辅助 白 子 
AISI{LE。 





图 13-3 AlphaGo 将 很 多 围棋 策略 概念 直接 编码 到 特征 平面 中 ， 包 括 征 子 概念 。 在 第 一 个 例子 

中 ， 白 子 只 剩 一 口气 了 ， 这 意味 着 黑 方 可 以 在 下 一 回合 吃 掉 它 。 和 白 方 可 以 长 出 来 增加 一 口气 ， 

但 是 黑 方 也 可 以 接着 落 子 将 白 子 的 气 减少 为 一 口 。 这 样 一 直 持续 下 去 ， 直 到 灵 到 棋盘 边线 ， 白 

子 还 是 会 被 全 部 吃 挥 。 而 在 男 一 种 情况 下 ， 如 果 在 征 子 的 路 线 上 已 经 有 一 颖 白 子 ， 白 方 就 有 可 
能 逃离 被 吃 子 的 命运 。AlphaGo 中 有 一 个 特征 平面 专门 用 来 表示 征 子 是 否 能 成 功 






















































































我 们 之 前 所 有 的 围棋 棋盘 编码 器 都 采用 了 一 个 技巧 ， 即 二 元 特征 
(binary feature) ， 这 个 技巧 在 AljphaGo 中 也 被 采用 。 例 如 ， 在 捕获 气 
的 概念 《棋盘 上 相 邻 的 空白 点 ) 时 ， 我 们 并 不 只 用 一 个 特征 平面 来 表示 
棋盘 上 每 颗 棋子 的 气 数 ， 而 是 用 3 个 二 元 表达 的 平面 来 表示 一 颗 棋 子 是 
有 1 口气 、2 口 气 还 是 3 口气 。 在 AlphaGo 中 也 可 以 看 到 相同 的 做 法 ， 但 是 
它 采 用 了 8 个 特征 平面 来 记录 二 元 计数 。 在 气 的 例子 中 ， 这 意味 着 8 个 平 
面 分 别 代 表 每 颗 棋子 是 否 有 1 口 、2 口 、3 口 、4 口 、5 口 、6 口 、7 口 和 至 


少 8 口气 。 



































AlphaGo 与 第 6 章 人 至 第 8 革 中 介绍 的 唯一 不 同 点 在 于 ， 它 将 棋子 的 闫 











色 独 立 出 来 ， 显 式 地 编码 到 另 一 个 单独 的 特征 平面 中 。 回 顾 一 下 第 7 章 
的 sevenplane 编 码 器 ， 我 们 的 眼 平面 同时 包含 黑子 平面 和 和 白 子 平面 ， 

而 AljphaGo 只 用 一 个 特征 集合 用 来 记录 气 的 数量 ， 并 且 所 有 的 特征 都 是 
针对 下 一 回合 的 执 子 方 。 例 如 ， 在 特征 集 “ 吃 子 数 ”〈 用 来 记录 一 个 动作 
能 吃 掉 的 棋子 数目 ) 中 ， 只 记录 当前 执 子 方 能 够 吃 掉 的 棋子 数量 ， 不 论 
它 是 黑 方 还 是 自 方 ， 








表 13-1 总 结 了 AlphaGo 所 使 用 的 全 部 特征 平面 。 前 48 个 平面 用 于 策 
略 网 络 ， 最 后 一 个 只 用 于 价值 网 络 。 


表 13-1 _ AlphaGo 所 使 用 的 特征 平面 














3 个 特征 平面 分 别 代表 当前 执 子 方 、 对 手 方 ， 以 及 棋盘 上 的 空 点 的 
棋子 颜色 






































征 平面 












































一 个 动作 如 果 合 法 ， 且 不 会 填补 当前 棋 手 的 眼 ， 则 会 在 平面 上 填 
入 1， 人 否则 填 入 0 





























8 这 个 集合 有 8 个 二 元 平面 ， 代 表 一 个 动作 落 子 离 现在 有 多 少 个 加 











n> 




















果 这 个 动作 执行 了 之 后 ， 还 会 剩 多 少 


颗 对 方 棋子 











如 果 这 个 动作 执行 之 后 ， 有 多 少 己方 的 棋子 会 陷入 动 争 ， 可 能 在 
下 一 回合 被 对 方 提 走 






































这 颗 棋子 是 否 能 够 逃 出 一 个 可 能 的 征 子 局 面 




















如 果 当 前 执 子 方 是 黑子 ， 整 个 平面 填 入 1; 如 果 是 白 子 ， 则 填 入 0 

















这 些 特征 的 实现 可 以 在 本 书 的 GitHub 代 码 库 中 的 dljgo.encoder 模 块 中 
找到 ， 文 件 是 alphago.py。 虽 然 每 一 个 特征 集 的 实现 都 不 困难 ， 但 和 我 
们 将 要 介绍 的 AlphaGo 其 他 部 分 相 比 ， 它 们 并 不 显得 很 有 趣 。 实 现 “ 征 子 
提 子 ”平面 难度 较 蜗 ， 而 且 要 对 一 个 动作 从 执行 时 到 现在 的 回合 数 进行 
编码 ， 需 要 修改 围棋 棋盘 的 定义 。 因 此 如 果 读 者 对 这 些 实现 有 兴趣 的 
话 ， 可 以 参看 GitHub 上 的 实现 代码 。 











让 我 们 看 看 ALphaGoEncoder 如 何 初 始 化 ， 然 后 把 它 应 用 到 深度 神 
经 网 络 的 训练 中 。 它 需要 一 个 围棋 棋盘 尺寸 参数 ， 以 及 一 个 布尔 值 参 
数 use_player_plane〔 代 表 是 否 包 含 第 49 个 平面 ) 。 代 码 清单 13-4 展 
示 了 它 的 签名 以 及 初始 化 过 程 。 





代码 清单 13-4 ”AlphaGo 棋 盘 编码 器 的 签名 以 及 初始 化 


class AlphaGoEncoder(Encoder): 
def _init (self, board size, use player plane=False): 


self.board width, self.board height = board size 
self.use player plane = use player plane 
self.num planes = 48 + Use player plane 





13.1.3 ”训练 AlphaGo 风 格 的 策略 网 络 


网 络 染 构 和 输入 特征 都 准备 好 之 后 ， 我 们 开始 为 AlphaGo 训 练 集 略 
网 络 。 第 一 步 与 第 7 章 的 流程 完全 一 致 : 指定 一 个 棋盘 编码 器 和 一 个 代 
理 ， 加 载 棋谱 数据 ， 并 使 用 这 些 数据 来 训练 代理 。 图 13-4 展 示 了 这 个 流 
程 。 昌 然 我 们 使 用 了 更 加 复杂 的 特征 和 网 络 ， 但 流程 还 是 完全 一 样 的 。 
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图 13-4 AlphaGo 的 策略 网 络 监督 训练 过 程 与 第 6 章 和 第 7 章 中 介绍 的 完全 一 致 。 我 们 对 人 工 棋谱 

进行 复 盘 ， 并 重新 产生 一 系列 游戏 状态 。 每 个 游戏 状态 编码 为 一 个 张 量 〈 这 个 图 展示 了 一 个 只 

有 两 个 平面 的 张 量 ， 而 AlphaGo 实 际 使 用 了 48 个 平面 ) 。 训 练 目 标 是 一 个 与 棋盘 尺寸 相同 的 向 
量 ， 并 在 实际 落 子 点 填 入 1 







































































要 初始 化 并 训练 AlphaGo 的 强 策 略 网 络 ， 需 要 先 初 始 化 一 
个 AlphaGoEncoder， 然 后 创建 两 个 围棋 数据 生成 器 ， 分 别 用 于 训练 和 
测试 ， 如 代码 清单 13-5 所 示 。 这 个 步骤 与 第 7 章 一 样 。 这 一 步 的 代码 可 
以 在 GitHub 上 的 examples/alphago/alphago_policy_sl.py 文 件 中 找到 。 





代码 清单 13-5 ”为 AlphaGo 的 策略 网 络 的 第 一 步 训 练 加 载 数据 








from dlgo.data.parallel processor import GoDataProcessor 
from dlgo.encoders.alphago import AlphaGoEncoder 

from dlgo.agent.predict import DeepLearningAgent 

from dlgo.networks.alphago import alphago model 


from keras.callbacks import ModelCheckpoint 
import h5py 


rows, cols = 19, 19 
num_classes = rows * cols 
num_ games = 16660 


encoder = AlphaGoEncoder() 

processor = GoDataProcessor(encoder=encoder .name() ) 

generator = processor.1oad go data('train', num games, Use _ generator=True) 
test generator = processor.1oad go data('test', num games, use generator=T 
rue) 





接 下 来 ， 我 们 可 以 使 用 本 节 之 前 定义 的 alphago_mode1 函 数 来 加 载 
AlphaGo 的 策略 网 络 ， 并 采用 分 类 交叉 炳 损失 函数 和 随机 梯度 下 降 法 来 
对 这 个 Keras 模型 进行 编译 ， 如 代码 清单 13-6 所 示 。 我 们 把 这 个 模型 称 


为 alphago_sl_policy， 以 表示 它 是 一 个 采用 监督 学 习 (sl 是 supervised 
learning 的 简写 ) 的 策略 网 络 。 





























代码 清单 13-6 ”用 Keras 创 建 一 个 AlphaGo 策 略 网 络 


input shape = (encoder.num planes, rows, cols) 
alphago_ sl policy = alphago model(input _ shape, is policy net=True) 


alphago_ sl policy.compile('sgd', 'categorical crossentropy', metrics=['"'acc 
uracy' ]) 





现在 第 一 阶段 的 训练 只 剩 下 最 后 一 步 了 。 和 第 7 章 一 样 ， 使 用 训练 
生成 器 和 测试 生成 器 对 这 个 策略 网 络 调用 fit_generator。 除 网 络 更 
大 、 编 码 器 更 复杂 之 外 ， 其 他 地 方 都 和 第 6 章 至 第 8 章 完全 一 样 。 











训练 结束 后 ， 我 们 可 以 从 model 和 encoder 创 建 一 
个 DeepLearningAgent， 并 把 它 存储 起 来 (如 代码 清单 13-7 所 示 )〉 ， 以 
备 后 面 讨论 的 两 个 训练 阶段 使 用 。 











代码 清 

















13-7 ”训练 一 个 策略 网 络 并 持久 化 存储 


epochs = 266 

batch_size = 128 

alphago_s1l1_policy.fit_generator( 
generator=generator.generate(batch size, num classes), 
epochs=epochs， 
steps_per_epoch=generator.get_num_samples() / batch size, 
validation data=test generator.generate(batch size, num classes)， 
validation steps=test generator.get num samples() / batch size, 
callbacks=[ModelCheckpoint('alphago_ sl policy {epoch}.h5')] 

) 


alphago_ sl agent = DeepLearningAgent(alphago sl policy, encoder) 


with h5py.File('alphago sl policy.h5', 'w') as sl agent out: 
alphago_sl1 agent.serialize(s] agent out) 





为 简洁 起 见 ， 在 本 半 中 我 们 并 不 需要 像 AlphaGo 论 文 所 说 的 那样 分 
别 训练 强 集 略 网 络 和 快 集 略 网 络 。 我 们 不 男 外 单独 训练 一 个 更 小 更 快 的 


策略 网 络 ， 而 是 直接 使 用 alphago_sl_agent 作 为 快 策略 网 络 。 下 一 节 会 介 
绍 如 何以 这 个 代理 为 起 点 进行 强化 学 习 ， 生 成 一 个 更 强 的 策略 网 络 。 


13.2 用 策略 网 络 启 动 自我 对 弈 


在 使 用 alphago_sl_agent 训 练 了 一 个 相对 强力 的 策略 代理 之 后 ， 用 
这 个 代理 来 进行 自我 对 奔 ， 并 采用 第 10 章 介绍 的 策略 梯度 算法 对 它 进行 
改进 。DeepMind 的 AlphaGo 用 强 策 略 网 络 的 多 个 不 同 版 本 与 当前 最 强 的 
版 本 进行 对 研 ， 这 在 13.5 节 中 会 详细 描述 。 这 么 做 能 够 防止 过 拟 合 ， 并 
且 总 体 上 能 够 得 到 更 好 的 表现 。 但 是 我 们 采用 更 简单 的 办 法 ， 让 
alphago_sl_agent 直 接 进行 自我 对 三 。 这 样 做 也 能 够 传达 相同 的 道理 : 利 
用 自我 对 弈 让 策略 代理 变 得 更 强 。 











要 进入 下 一 个 训练 阶段 ， 需 要 先 加 载 监 督学 习 策略 网 络 
alphago_sl_agent 两 次 : 一 个 版 本 作为 新 的 强化 学 习 代 理 ， 称 为 
alphago_rl_agent; 另 一 个 作为 它 的 对 手 《〈 如 代码 清单 13-8 所 示 ) 。 这 一 
步 的 脚本 可 以 在 GitHub 的 examples/alphago/alphago_policy_sl.py 文 件 中 找 
到 。 


代码 清单 13-8 两 次 加 载 训练 好 的 策略 网 络 ， 以 创建 自我 对 弈 的 双方 对 手 











from dlgo.agent.pg import PolicyAgent 

from dlgo.agent.predict import load prediction agent 
from dlgo.encoders.alphago import AlphaGoEncoder 
from dlgo.rl.simulate import experience simulation 
import h5py 


encoder = AlphaGoEncoder() 


sl agent = load prediction agent(h5py.File('alphago sl policy.h5')) 


sl _opponent = load_prediction_agent(h5py.File('alphago_s1l_policy.h5 ')) 


alphago_rl1 agent = PolicyAgent(sl agent.model, encoder) 
opponent = PolicyAgent(sl opponent.model, encoder) 





接 下 来 ， 我 们 可 以 让 两 个 代理 开始 进行 自我 对 研 ， 并 将 比赛 结 末 记 
录 成 经 验 数据 ， 用 作 训 练 数 据 集 。 这 套 经 验 数据 可 以 用 来 训练 
alphago_rl_agent， 如 代码 清单 13-9 所 示 。 然 后 我 们 需要 把 训练 好 的 强化 
学 习 策 略 代理 保存 好 。 目 我 对 三 获得 的 经 验 数 据 也 需要 保存 好 ， 之 后 训 
练 AlphaGo 价 值 网 络 时 还 要 用 到 。 








代码 清单 13-9 ”为 PolicyAgent 生 成 可 供 学 习 的 自我 对 弈 数据 








num_games = 1666 
experience = experience simulation(num games, alphago_rl agent, opponent) 


alphago_rl1 agent.train(experience) 


with h5py.File('alphago_ rl] policy.h5', 'w') as rl agent out: 
alphago_rl1 agent.serialize(rl] agent out) 


with h5py.File('alphago_rl] experience.h5', 'w') as exp_out: 
experience.serialize(exp_out) 





注意 ， 这 个 例子 使 用 了 一 个 来 自 dlgorl.simulate 的 实用 工具 函 
数 experience_simulaton。 它 的 实现 可 以 在 GitHub 上 找到 。 这 个 函数 
的 内 容 是 设置 两 个 代理 ， 让 它们 执行 由 num_games 局 上 自我 对 硅 ， 并 以 第 
9 章 介绍 过 的 ExperienceCollector 的 形式 返回 经 验 数据 。 


2016 年 ， 当 AlphaGo 出 现在 大 众 眼前 的 时 候 ， 当 时 最 强 的 开源 围 横 
机 器 人 还 是 Pachi (读者 可 以 在 附录 C 中 了 解 更 多 相关 信息 ) ， 它 的 水 准 
大 概 相 当 于 业余 2 段 。 仅 仅 用 强化 学 习 代 理 alphago_rl_agent 来 选择 动 





作 ， 束 能 让 AlphaGo 对 战 Pachi 的 获胜 率 达 到 令 人 印象 深刻 的 85%。 之 前 
也 有 人 用 过 卷 积 神经 网 络 来 进行 动作 预测 ， 但 对 战 Pachi 的 获胜 紊 从 来 
没有 超过 10%。 这 一 点 展示 了 自我 对 窒 所 获得 的 强度 提升 相对 于 纯粹 的 
监督 深度 神经 网 络 学 习 有 和 多大。 如 果 读 者 进行 自己 的 实验 ， 不 要 期 待机 
器 人 能 够 一 开始 就 有 这 么 高 的 排名 一 一 你 很 可 能 没有 《或 者 能 担负 得 
起 ) 足够 的 计算 能 








13.3 ”从 目 我 对 春 数 据 衍 生出 一 个 价值 网 络 








AlphaGo 训 练 过 程 的 第 三 步 ， 也 是 最 后 一 步 ， 是 用 训练 
alphago_rl_agent 时 所 生成 的 同一 组 上 自我 对 奔 数 据 训 练 一 个 价值 网 络 。 
这 一 步 与 上 一 步 结 构 上 很 相似 。 我 们 需要 先 初始 化 一 个 价值 网 络 ， 并 创 
建 一 个 ValueAgent， 内 含 一 个 AlphaGo 的 棋盘 编码 器 ， 如 代码 清单 13- 
10 所 示 。 这 个 训练 步骤 的 代码 也 可 以 在 GitHub 上 的 
examples/alphago/alphago_value.py 文 件 中 找到 。 


代码 清单 13-10 ”初始 化 一 个 AlphaGo 价 值 网 络 


from dlgo.networks.alphago import alphago model 
from dlgo.encoders.alphago import AlphaGoEncoder 
from dlgo.rl import ValueAgent, load experience 
import h5py 


rows, cols = 19, 19 

encoder = AlphaGoEncoder() 

input_shape = (encoder.num planes, rows, cols) 
alphago_value network = alphago model(input_shape) 


alphago value = ValueAgent(alphago value network, encoder) 





现在 我 们 可 以 再 次 加 载 自 我 对 穿 生 成 的 经 验 数 据 ， 并 用 它 训练 价值 


网 络 ， 然 后 和 前 面 两 个 网 络 一 样 ， 把 这 个 代理 持久 化 存储 ， 如 代码 清单 
13-11 所 示 。 

















代码 清单 13-11 用 经 验 数 据 训 练 一 个 价值 网 络 





experience = load experience(h5py.File('alphago rl experience.h5', 'r')) 


alphago_value.train(experience) 


with hs5py.File('alphago value.h5', 'w') as value agent out: 
alphago value.serialize(value agent out) 





至 此 ， 如 果 我 们 能 够 入 侵 DeepMind 的 AlphaGo 团 队 的 机 房 (当然 这 
么 做 是 不 对 的 ) ， 并 假设 他 们 训练 AlphaGo 的 方式 与 我 们 相同 ， 都 是 用 
Keras( 实 际 上 他 们 不 是 这 么 做 的 ) ， 接 着 再 调整 好 快 策略 、 强 策略 和 
价值 网 络 的 参数 ， 我 们 就 应 该 能 够 创造 出 一 个 超越 人 类 水 平 的 围棋 机 器 
人 和 人 了。 当然， 前 提 是 我 们 得 知道 如 何在 树 搜 索 算法 中 适当 地 使 用 这 3 个 
深度 网 络 。 下 一 节 内 容 正 是 对 这 个 话题 的 讨论 。 





13.4 用 策略 网 络 和 价值 网 络 做 出 更 好 的 搜索 


回顾 第 4 章 ， 当 在 围棋 中 采用 纯 杜 特 卡 洛 树 搜索 时 ， 我 们 用 下 面 这 4 
个 步骤 来 构建 一 株 游 戏 状态 树 。 


(1) 选择 一 一 通过 在 子 节 点 中 随机 选择 一 个 节点 来 壳 历 游戏 树 。 





(2) 扩展 一 一 给 搜索 树 添 加 一 个 新 三 操 ， 即 一 个 新 的 游戏 状态 。 


(3) 评估 一 一 从 这 个 新 状态 (有 时 称 为 一 个 叶 市 点 ， 即 leaf〉 开 


始 ， 模 拟 一 个 完全 随机 的 棋局 。 


(4) 更 新 一 一 完成 模拟 之 后 ， 相 应 更 新 搜索 树 的 统计 信息 。 








模拟 更 多 盘 棋局 ， 得 到 的 统计 会 更 准确 ， 这 些 统计 信息 可 以 用 来 选 
择 下 一 步 动作 。 





AlphaGo 系 统 采 用 了 一 套 更 为 复杂 的 树 搜 索 算 法 ， 但 是 算法 的 很 多 
部 分 都 会 让 人 感到 似曾相识 。 上 面 的 4 个 步骤 也 正 是 AlphaGo 的 MCTS 算 
法 的 核心 步 又， 但 是 AljphaGo 会 以 一 种 更 聪明 的 方式 ， 利 用 深度 神经 网 
络 去 评估 棋盘 状态 、 扩 展 节 点 以 及 跟踪 统计 信息 。 在 本 章 后 面 的 几 节 
中 ， 我 们 会 随 着 内 容 的 深入 逐步 展示 如 何 开发 一 个 AlphaGo 版 本 的 树 搜 
RS 





13.4.1 用 神经 网 络 改进 蒙特 卡 洛 推演 


13.1 节 、13.2 节 和 13.3 贡 详细 描述 了 如 何 训练 AlphaGo 的 3 个 神经 网 
络 : 快 策略 网 络 、 强 策略 网 络 和 价值 网 络 。 那 么 如 何 利 用 这 些 网 络 来 改 
进 蒙 特 卡 洛 树 搜索 呢 ?” 最 容易 想到 的 第 一 个 方法 ， 就 是 在 推演 中 不 再 随 
机 落 子 ， 而 是 用 一 个 策略 网 络 来 指导 。 这 正 是 快 策略 网 络 的 用 武之 地 ， 
而 且 它 的 名 称 来 由 也 有 了 解释 : 推演 时 一 定 要 够 快 ， 才 能 在 短 时 间 内 完 
成 大 量 的 推演 。 





代码 清单 13-12 展 示 了 如 何在 茶 个 给 定 围棋 游戏 状态 下 从 策略 网 络 
中 贫 柳 地 选取 下 一 步 动作 。 一 直选 择 最 佳 的 候选 动作 ， 直 人 至 棋局 终 盘 。 





如 果 当 前 棋 手 获胜 ， 返 回 1， 和 否则 返回 -1。 


代码 清单 13-12 ”用 快 策略 网 络 来 进行 推演 





def policy rollout(game_ state, fast policy): 
next player = game state.next player() 
while not game state.is over(): 
move_probabilities = fast policy.predict(game_state) 


greedy move = max(move_probabilities) 
game_state = game_ state.apply move(greedy move) 


winner = game_ state.winner() 
return 1 if winner == next _ player else -1 








于 策略 网 络 天 然 地 比 抛 人 硬币 选择 动作 更 好 ， 因 此 改 用 这 个 推演 集 
上 略 本 身 就 已 经 有 了 很 大 的 改进 。 但 我 们 还 有 更 大 的 改进 空间 。 








例如 ， 当 到 达 搜 索 树 的 一 个 叶 节 点 时 ， 我 们 需要 扩展 它 。 这 时 候 ， 
我 们 可 以 不 再 随机 选择 一 个 新 节点 来 扩展 ， 而 是 向 强 策 略 网 络 查 询 更 好 
的 动作 。 策 略 网 络 会 给 出 所 有 候选 动作 的 概率 分 布 ， 而 每 个 节点 都 可 以 
跟踪 这 个 概率 分 布 ， 因 此 更 好 的 动作 (根据 策略 所 得 〉 就 可 以 比 其 他 动 
作 更 有 机 会 被 选中 。 我 们 把 这 些 节 点 上 的 概率 分 布 称 为 先 验 概率 (prior 
probability) ， 因 为 它们 在 进行 任何 树 搜索 之 前 就 可 以 提供 给 我 们 关于 
动作 强度 的 先 验 知 识 。 














现在 终于 介绍 到 价值 网 络 的 用 途 了 。 我 们 已 经 将 随机 猜测 答 换 为 策 
上 略 网 络 ， 从 而 改进 了 推 澳 机 制 。 不 过 ， 当 在 每 个 时 节点 估计 节 点 价值 时 
我 们 只 计算 了 单个 棋局 的 结果 ， 而 估计 一 个 棋局 的 价值 正 是 价值 网 络 所 
擅长 的 任务 ， 因 此 对 于 这 个 价值 ， 我 们 其 实 已 经 有 一 个 深思 熟 虑 的 猜测 
了 。AlphaGo 在 这 里 所 采用 的 办 法 ， 是 在 推演 的 输出 与 价值 网 络 的 输出 





之 间 进 行 茶 种 权衡 〈weigh) 。 稍 作 思 考 就 能 看 到 这 个 办 法 和 人 类 在 下 
棋 时 做 出 决策 的 方式 有 些 相似 : 棋 手 会 尽量 预测 更 多 的 回合 ， 但 同时 也 
会 参考 日 己 的 围棋 经 验 。 当 棋 手 感觉 当前 局 势 并 不 太 好 的 时 候 ， 如 果 能 
推演 出 一 个 动作 序列 给 他 础 来 优势 ， 那 么 他 束 会 优先 选择 这 个 动作 ; 反 
之 ， 他 融会 放 奔 选择 这 个 动作 。 





现在 我 们 已 经 对 这 3 个 神经 网 络 在 AlphaGo 中 的 作用 有 了 初步 认识 ， 
也 对 如 何 利用 它们 来 改进 树 搜索 算法 有 了 初步 了 解 ， 接 下 来 深入 讨论 实 
现 细节 。 


13.4.2 用 合并 价值 函数 进行 树 搜 索 


第 11 章 中 介绍 过 如 何在 围棋 游戏 中 使 用 行动 价值 《也 称 为 Q 值 ) 。 
简单 来 次 ， 对 于 当前 棋盘 状态 s 以 及 一 个 洲 在 的 候选 动作 ao， 我 们 估计 出 
一 个 动作 价值 Q(s, a)， 用 来 体现 这 个 动作 在 状态 s 下 是 否 民 好 。 稍 后 我 们 
会 给 出 Q(s, g) 的 定义 ， 现 在 只 要 注意 AlphaGo 树 搜索 的 每 个 节点 都 存储 Q 
值 即 可 。 另 外 ， 每 个 节点 还 会 跟踪 记录 访问 计数 ， 代 表 这 个 节点 在 搜索 
过 程 中 被 这 历 过 多 少 次 ， 以 及 先 验 概率 P(s, di， 代 表 强 策略 网 络 所 认为 
的 这 个 动作 在 状态 s 下 的 价值 。 




















搜索 树 每 个 节点 都 有 一 个 父 节 点 ， 但 是 可 能 会 有 多 个 子 节点 ， 可 以 
用 Python 的 字典 来 进行 编码 ， 将 动作 映射 到 其 他 的 节点 。 按 照 这 种 方 
式 ， 可 以 按照 代码 清单 13-13 来 定义 AlphaGoNode。 








代码 清单 13-13 ”AlphaGo 搜 索 树 中 一 个 节点 的 定义 





class AlphaGoNode: 


def _init (self, parent, probability): 
self.parent = parent 
self.children = {} 


self.visit count = 6 
self.q value = 6 
self.prior value = probability 





假设 我 们 跳 进 一 局 正在 进行 中 的 比赛 ， 并 已 经 构建 了 一 棵 很 大 的 搜 


索 树 ， 收 集 了 访问 计数 ， 收 集 了 动作 价值 的 较 好 估计。 现在 我 们 要 做 的 
是 模拟 多 个 棋局 ， 跟 中 棋局 统计 信息 ， 以 便 在 模拟 结束 时 能 够 在 找到 的 
动作 中 挑选 最 佳 动 作 。 那 么 如 何 过 历 搜 索 树 来 模拟 一 局 棋 呢 ? 如 果 我 们 
处 在 游戏 状态 s 中 ， 并 将 对 应 的 访问 计数 记 为 Ne)， 那 么 可 以 按照 如 下 公 
式 来 选择 动作 : 


Pls.a) 


十 NISs.w) 





wa = argmaxaQ(s,a) 十 


这 个 公式 乍 看 似乎 比较 复业 ， 但 是 可 以 将 它 分 解 为 如 下 几 个 部 分 。 


argmax 表 达 式 的 意思 是 选择 让 公式 QGs, ao) + P(s, ao) /(1 + NGs, qa)) 达 
到 极 大 值 的 参数 a。 

需要 最 大 化 的 公式 由 两 项 组 成 ， 一 项 是 Q 值 ， 另 一 项 是 用 访问 计数 
进行 归 一 化 的 先 验 概 率 。 

棋局 开始 时 访问 计数 为 0， 因 此 在 最 大 化 Q(s, a) + P(s, q) 的 时 候 ， 我 
们 会 给 Q 值 和 先 验 概率 赋予 相同 的 权重 。 

如 果 访 问 计数 变 得 很 大 ， 则 P(s, q) / (1 + N(s, q)) 这 一 项 会 变 得 可 以 
忽略 不 计 ， 也 就 是 说 相当 于 只 留 下 Q(s, a) 一 项 。 

我 们 把 u(s, = P(s, qa) / (1 + N(s, qa)) 做 成 一 个 实用 工具 函数 。 在 下 一 
节 中 ， 我 们 会 稍微 修改 ws dj)， 但 是 本 节 的 这 个 函数 版 本 已 经 包含 
了 全 部 有 助 于 对 它 进行 理解 的 成 分 。 有 了 这 个 函数 ， 就 可 以 在 动作 





选择 时 ， 将 公式 写成 a = argmax, Q(s, qa) + u(s, d) 了 。 


总 结 


总 结 一 下 ， 我 们 通过 权衡 移 验 概率 与 Q 值 来 选择 动作 。 在 过 有 历 搜索 
树 的 过 程 中 ， 随 着 访问 计数 的 累积 以 及 对 Q 的 更 好 的 估计 ， 我 们 会 慢 慢 
忽略 先 验 估计 ， 并 给 予 Q 值 更 多 的 信任 。 换 句 话 说 ， 我 们 减少 了 对 先 验 
知识 的 依赖 ， 转 而 探索 更 多 未 知 。 这 个 过 程 与 人 们 自己 下 棋 的 体验 也 有 
类 似 之 处 。 假 设 你 整 晚 都 在 玩 你 最 喜欢 的 策略 棋盘 游戏 。 开 始 阶 段 ， 你 
还 需要 依赖 以 往 的 经 验 ， 但 随 着 时 间 的 推移 ， 你 应 当 会 通过 不 断 尝 试 新 
的 玩法 ， 不 断 刷新 目 己 对 不 同 玩法 是 否 可 行 的 理解 。 














以 上 就 是 AlphaGo 如 何在 现 有 树 中 选择 动作 的 原理 ， 那 么 如 果 已 经 
到 达 一 个 叶 节 点 上 时， 如 何 扩展 搜索 树 呢 ? 参考 图 13-5， 首 移 需 要 计算 强 
打上 略 网 络 P(1) 的 预测 值 ， 并 将 它们 存 入 I 的 每 个 子 节点 的 先 验 概率 中 。 


OO) 


TC) 
.@0O- 
一 人 @@- 
要 评估 的 棋盘 
5 CS 
OBL RLIAL) 
OO HO CENTZIO 
OO LU 
快 策略 网 络 价值 网 络 
OO 
OS 
Ee 人 OO +0.7 
OO 
G2 价值 网 络 对 获胜 率 进行 估计 。 
使 用 快 策略 网 络 来 挑选 动作 。 
完成 一 局 推演 ， 并 查看 哪 一 广 
获胜 。 





图 13-5 ”要 评估 可 能 的 棋局 ，AlphaGo 毕 合 了 两 个 独立 的 评估 结果 。 首 先 ， 它 会 将 棋局 输入 价值 
网 络 中 ， 并 直接 返回 一 个 获胜 率 的 估计 。 接 着 ， 它 会 从 这 个 棋局 开始 用 快 策略 网 络 完成 一 局 推 
演 ， 并 观察 哪 一 方 获胜 。 树 搜索 的 评估 结果 是 这 两 个 部 分 的 加 权 和 









































接着 ， 需 要 将 策略 推演 与 价值 网 络 的 结果 合并 起 来 评估 叶 节 点 ， 
如 下 : 
VD) = A value(i) + (1 — AM): rollout(/) 
在 这 个 等 式 中 ，value(D) 是 价值 网 络 对 节点 1 的 计算 结果 ， 而 rollout(]) 
则 代表 /节点 下 的 一 次 快 策略 推演 的 结果 。A 是 一 个 0 一 1 的 数值 ， 上 默认 设 
为 0.5。 








退回 一 步 来 看 ， 请 记 住 ， 在 树 搜 索 挑 选 动作 时 我 们 最 终 需 要 模拟 总 
计 m 局 棋局 。 要 做 到 这 一 点 ， 需 要 在 模拟 结束 时 更 新 访问 计数 和 Q 值 。 
访问 计数 很 简单 ， 在 壳 历 中 访问 到 的 每 个 节点 计数 加 1 即 可 。 而 要 更 新 
Q 值 ， 则 需要 将 所 有 访问 过 的 叶 市 点 /的 值 V(1) 进 行 昧 加 ， 并 除 以 访问 计 
数 : 





TD 
Q(s, a) = 本 
{5S.a) 


i=1 





这 里 把 所 有 的 n 个 模拟 结果 累加 起 来 ， 并 且 如 果 第 i 个 模拟 表 历 到 了 
与 Cs, q) 对 应 的 节点 ， 就 添加 这 个 叶 节 后 值 。 








总 结 整 个 流程 ， 我 们 可 以 看 看 将 第 4 章 的 4 步 树 搜索 流程 修改 之 后 是 
什么 样子 。 





。 选择 一 一 通过 选择 能 够 让 Q(s, a) + u(s, g 最 大 化 的 动作 a 来 遍历 搜索 
树 。 

。 扩展 一 一 在 扩展 一 个 新 节点 时 ， 我 们 会 向 强 策略 网 络 询问 一 次 每 个 
子 节点 需要 存储 的 先 验 概率 。 

。 评估 一 一 在 模拟 结束 的 时 候 ， 计 算 价值 网 络 的 输出 与 快 策略 网 络 推 
演 的 结果 的 平均 值 ， 得 出 叶 节 点 的 评估 值 。 

。 蝎 新 一 一 在 所 有 模拟 结束 的 时 候 ， 更 新 模拟 裔 历 过 的 所 有 节点 的 访 
问 计 数 和 Q 值 。 





还 剩 一 件 事情 没有 讨论 ， 就 是 在 模拟 结束 之 后 如 何 选 择 下 一 手 落 于 
的 动作 。 这 其 实 也 很 简单 : 直接 选择 访问 计数 最 多 的 节点 即 可 ! 这 么 做 
乍 看 似乎 过 于 简化 了 ， 但 注意 ， 贡 上 反 的 访问 计数 会 随 着 它们 的 Q 值 提高 
而 增多 。 在 进行 了 足够 多 次 的 模拟 之 后 ， 访 问 计数 就 能 够 成 为 衡量 该 动 





作 相 对 价值 的 一 个 民 好 指标 了 。 


13.4.3 ”实现 AlphaGo 的 搜索 算法 


讨论 了 AlphaGo 如 何 用 神经 网 络 来 完成 树 搜索 之 后 ， 我 们 接着 在 
Python 中 实现 这 个 算法 。 我 们 的 目标 是 按照 AlphaGo 的 方式 来 创建 一 
个 Agent 类 ， 其 包含 一 个 select_move 方 法 。 本 节 的 代码 可 以 在 GitHub 
中 的 dlgo/agent/alphago.py 文 件 中 找到 。 








我 们 先 从 AlphaGo 树 节点 的 完整 定义 开始 ， 如 代码 清单 13-14 所 示 。 
在 上 一 节 中 我 们 已 经 写 出 了 它 的 代码 框架 。AlLphaGoNode 节 点 包含 一 个 
父 节 点 ， 以 及 用 字典 映射 到 其 他 市 点 来 存储 的 子 节 点 集合 。 市 点 内 还 包 
含 一 个 visit_count (访问 计数 )、 一 个 q_value(Q 值 )， 以 及 一 
个 prior_value〔 先 验 值 )。 另 外 ， 还 需要 为 该 节点 存储 一 个 实用 工具 
函数 u_value。 





代码 清单 13-14 在 Python 中 定义 一 个 AlphaGo 树 节点 








import numpy as np 

from dlgo.agent.base import Agent 
from dlgo.goboard fast import Move 
from dlgo import kerasutil 

import operator 


class AlphaGoNode: 
def _init (self, parent=None, probability=1.0): 
self.parent = parent <--- 树 节点 有 一 个 父 节 点 ， 以 及 可 能 的 多 个 子 节点 
self.children = {} 





self.visit count = 6 
self.q value = 6 
self.prior _ value = probability <--- 每 个 节点 用 一 个 先 验 概率 来 初始 





化 

















self.u value = probability <--- 实用 工具 函数 会 在 搜索 过 程 中 进行 更 新 











树 搜 索 算 法 中 有 3 个 方法 会 用 到 这 个 市 反 





(1) select_chil1d 一 一 在 模拟 过 程 中 ， 要 遍历 搜索 树 ， 需 要 根据 
argmax_Q(s, aq) + u(s, aq) 来 选择 将 要 访问 的 子 节点 ， 即 选择 能 够 让 Q 值 和 
实用 工具 函数 的 和 最 大 化 的 动作 。 








(2) expand_children 一 一 在 叶 节 点 询问 强 策略 网 络 ， 让 它 评估 
从 当前 棋局 开始 的 所 有 合法 动作 ， 并 为 每 个 动作 添加 一 个 新 的 
AlphaGoNode 子 节点 。 


(3) update_values 一 一 最 终 在 完成 所 有 模拟 之 后 ， 分 别 更 新 


visit count、q_value 和 uv_value。 


前 面 两 个 方法 相对 直观 ， 如 代码 清单 13-15 所 示 。 











代码 清单 13-15 ”通过 最 大 化 Q 值 来 选择 一 个 AlphaGo 子 节点 

















class AlphaGoNode(): 


def select child(self): 
return max(self.children.items(), 
key=lambda child: child[1].9q_value + \ 
child[1].u_value) 


def expand children(self, moves, probabilities): 
for move, prob in zip(moves, probabilities): 
if move not in self.children: 
self.children[move] = AlphaGoNode(probability=prob) 





第 三 个 方法 则 相对 复杂 一 些 。 它 要 更 新 AlphaGo 节 点 的 各 项 统计 信 





恩 。 首 和 完 ， 我 们 需要 一 个 棚 微 更 复杂 的 实用 工具 函数 : 





Pls.,a) 


u(s,.a)= 6, ps 中 一 一 一 一 
VN 1+N(s,a) 








与 13.4.2 节 的 版 本 相 比 ， 这 个 版 本 的 实用 工具 函数 多 了 两 项 。 第 一 
项 c,， 即 代码 中 的 c_u， 会 将 所 有 节点 的 实用 工具 函数 放大 一 个 常数 
倍 ， 这 里 我 们 默认 设 为 5 倍 。 第 二 项 进一步 放大 实用 工具 函数 ， 使 用 的 
倍数 是 父 节 点 的 访问 计数 的 平方 根 〈 这 里 当前 节点 的 父 友 点 用 和 V 表 
示 ) 。 这 将 会 导致 那些 父 届 点 被 访问 过 更 多 次 的 节点 拥有 更 高 的 实用 工 











更 新 AlphaGo 贡 点 的 访问 计数 、Q 值 和 实用 工具 函数 值 的 方法 如 代 
码 清 单 13-16 所 示 。 





代码 清单 13-16 “更 新 AlphaGo 节 点 的 访问 计数 、Q 值 和 实用 工具 函数 值 








class AlphaGoNode(): 


def update values(self, leaf value): 
if self.parent is not None: 
self.parent.update values(leaf value) <--- 先 更 新 父 节 点 ， 以 
确保 按照 从 顶 至 底 的 顺序 遍历 搜索 树 








self.visit count += 1 <--- 为 当前 节点 增加 访问 计数 


self.q value += leaf value / self.visit count <--- ”将 指定 的 叶 节 
点 的 价值 加 到 Q 值 上 ， 并 用 访问 计数 进行 归 一 化 





if self.parent is not None : 
C_U = 5 
self.uU value = C_U * np.sqrt(self.parent.visit count) \ 
* self.prior value / (1 + self.visit count) <--- 用 当 


前 的 访问 计数 来 更 新 实用 工具 函数 





























至 此 ， 我 们 完成 了 AlphaGoNode 的 定义 ， 接 着 就 可 以 在 AlphaGo 的 
搜索 算法 中 使 用 这 个 树 结构 了 。 我 们 要 实现 的 AlphaGoMCTS 类 是 一 
个 Agent 子 类 ， 并 且 会 用 多 个 参数 进行 初始 化 (如 代码 清单 13-17 所 
示 ) 。 首 先 ， 我 们 需要 为 这 个 代理 类 提供 一 个 快 策略 网 络 、 一 个 强 策 略 
网 络 和 一 个 价值 网 络 参 数 。 接 着 ， 寅 要 指定 AlphaGo 专 有 的 推演 和 评估 
参数 。 


。 lambda_value 一 一 这 是 用 于 均衡 推演 结果 与 价值 函数 输出 的 A 
值 : V(1) = Avalue(1 ) + (1—A):rollout())。 

。 num_simulations 一 一 这 个 值 可 以 指定 在 动作 选择 过 程 中 需要 运 
行 多 少 次 模拟 推演 。 

。 depth 一 一 这 个 参数 可 以 告诉 算法 每 次 模拟 需要 问 前 观察 多 少 步 
《 即 指定 搜索 深度 ) 。 

。rollout_limit 一 一 在 决定 一 个 叶 节 点 的 价值 时 ， 会 运行 一 次 策略 
推演 rollout(1 )。 参 数 rollout_1limit 用 来 告诉 AlphaGo 推 演 多 少 步 
动作 之 后 进行 输出 判定 。 























代码 清单 13-17 初始 化 一 个 AlphaGoMCTS 围 棋 对 迹 代 理 


class AlphaGoMCTS (Agent ) : 
def _ init (self, policy agent, fast policy agent, value agent, 
lambda value=0.5, num simulations=1680, 
depth=56, rollout limit=160): 
self.policy = policy agent 
self.rollout policy = fast policy agent 


self.value = value agent 


self.lambda value = lambda value 
self.num simulations = num simulations 
self.depth = depth 

self.rollout limit = rollout limit 
self.root = AlphaGoNode() 





现在 是 时 候 实 现 这 个 新 Agent 的 select_move 方 法 了 。 这 个 方法 包 
含 了 算法 的 大 部 分 重要 工作 。 我 们 在 前 面 一 节 已 经 粗略 勾画 出 了 
AlphaGo 的 树 搜 索 流 程 ， 现 在 我 们 再 梳理 一 下 这 个 流程 的 各 个 步 又 。 


。 想 要 选择 一 个 动作 时 ， 第 一 件 事 是 在 游戏 树 上 运 

行 hum_simulations 次 模拟 。 

每 次 模拟 都 需要 一 直 进 行 前 瞻 搜 索 ， 直 至 到 达 指 定 的 深度 depth。 

。 如 果 一 个 节点 没有 任何 子 节点 ， 需 要 参考 强 集 略 网 络 提 供 的 先 验 概 
紊 ， 为 每 一 个 可 能 的 合法 动作 添加 一 个 新 的 AlphaGoNode 子 市 点 ， 
以 扩展 搜索 树 。 

。 如 果 节 点 有 子 节点 ， 则 选择 能 够 最 大 化 Q 值 与 实用 工具 函数 值 之 和 
的 动作 。 

。 在 棋盘 上 执行 本 次 模拟 选中 的 动作 。 

。 当 到 达 指 定 深度 时 ， 从 价值 网 络 获 得 价值 函数 ， 与 策略 推演 的 输出 
值 进行 综合 平均 ， 计 算出 这 个 叶 节 点 的 评估 值 。 

。 根据 模拟 中 涉及 的 时节 点 的 值 来 更 新 所 有 AlphaGo 节 点 。 











我 们 将 在 select_move 中 实现 这 个 流程 ， 如 代码 清单 13-18 所 示 。 
注意 ， 这 个 方法 还 调用 了 另外 两 个 实用 工具 方法 
policy probabilities 和 policy _ rollout， 后 面 会 再 讨论 。 

















代码 清单 13-18 ”AlphaGo 树 搜索 流程 的 主 方法 





class AlphaGoMCTS (Agent ) : 


def select move(self, game_state): 
for simulation in range(self.num simulations): <--- ”从 当前 棋局 
状态 开始 ， 运 行 多 次 模拟 
current_ state = game_ state 
node = self.root 
for depth in range(self.depth) : <--- 不 断 执 行 下 一 步 动作 ， 直 
到 到 达 指 定 的 深度 

















if not node.children: <--- 如 果 当 前 节点 没有 任何 子 节点 …- 
if current state.is _ over() : 


break 
moves, probabilities = 
self.policy_ probabilities(current_ state) < 就 利用 强 策 略 网 络 提 











供 的 概率 分 布 来 扩展 这 个 节点 


node.expand children(moves, probabilities) 


move, node = node.select child() <--- 如 果 有 子 节点 ， 可 以 
选择 其 中 一 个 ， 并 执行 对 应 的 动作 


current_state = Current_state.apply_move(move) 











value = self.value.predict(current state) <--- 计算 价值 网 络 
的 输出 以 及 快 策略 的 一 次 推演 结果 
rollout = self.policy rollout(current state) 
weighted value = (1 - self.lambda value) * value + \ 
self.lambda value * rollout <--- 确定 综合 的 价值 函数 
































node.update_values(weighted_value) <--- 在 结束 阶段 为 这 个 节点 


更 新 各 项 值 














读者 可 能 已 经 注意 到 ， 到 这 里 我 们 已 经 完成 了 所 有 的 模拟 ， 但 实际 
上 还 没有 执行 真正 的 落 子 动作 。 要 做 到 这 一 点 ， 只 需要 选择 访问 计数 最 
多 的 动作 即 可 。 之 后 相应 地 更 新 root 节 点 ， 并 返回 选择 的 动作 ， 如 代码 
清单 13-19 所 示 。 




















代码 清单 13-19 选择 访问 计数 最 多 的 节点 ， 并 更 新 搜索 树 的 根 节点 





class AlphaGoMCTS(Agent ) : 


def select move(self, game_state): 








move = max(self.root.children, key=lambda move: <--- 选择 根 节 点 
所 有 子 节 点 中 访问 计数 最 多 的 一 个 ， 作 为 下 一 步 动作 


self.root.children.get(move).visit count) 


























self.root = AlphaGoNode() 
if move in self.root.children: <--- ”如 果 选 中 的 动作 是 一 个 子 节点 ， 
将 它 设 为 新 的 根 节 点 
self.root = self.root.children[move] 
self.root.parent = None 








return move 


这 样 我 们 就 完成 了 AlphaGo 的 树 搜索 的 主流 程 。 让 我 们 再 看 看 前 面 

提 到 的 两 个 实用 工具 方法 。 其 中 ，policy_probabilities 方 法 (如 代 

码 清单 13-20 所 示 ) 用 于 节点 扩展 ， 它 计算 强 策略 网 络 的 预测 值 ， 并 检 

查 其 合法 性 ， 再 将 剩 下 的 预测 动作 进行 归 一 化 。 这 个 方法 返回 所 有 合法 
动作 ， 以 及 归 一 化 的 策略 网 络 预测 值 。 





























代码 清单 13-20 ”为 棋盘 上 的 合法 动作 计算 归 一 化 的 强 策略 网 络 预测 值 


class AlphaGoMCTS (Agent ) : 


def policy probabilities(self, game state): 
encoder = self.policy. encoder 
outputs = self.policy.predict(game_state) 
legal moves = game_ state.legal moves() 
if not legal moves: 
return [],，[] 
encoded points = [encoder.encode point(move.point) for move in 
ww legal moves if move.point] 
legal outputs = outputs[encoded points] 
normalized outputs = legal outputs / np.sum(legal outputs) 
return legal moves, normalized outputs 





最 后 一 个 辅助 方法 是 policy_rollout， 它 负责 用 快 策略 网 络 来 运 

一 次 推演 ， 并 计算 结果 ， 如 代码 清单 13-21 所 示 。 这 个 方法 的 任务 是 
nn 直至 推演 次 数 达 到 限定 
值 ， 然 后 查看 胜 负 结果 。 如 果 执 子 方 获胜 ， 则 返回 1， 如 果 对 手 方 获 
胜 ， 则 返回 -1; 如 果 没 有 得 到 结果 ， 则 返 





代码 清单 13-21 不 断 执 行 落 子 动作 ， 直 到 推演 次 数 达到 rollout_limit 


class AlphaGoMCTS (Agent ) : 








def policy rollout(self, game state): 
for step in range(self.rollout limit): 
if game_state.is over() : 
break 


move_probabilities = self.rollout policy.predict(game_ state) 


encoder = self.rollout policy.encoder 


valid moves = [m for idx, m in enumerate(move probabilities) 
if Move(encoder.decode point index(idx)) in 


= game state.legal moves()] 


max_index, max_value = max(enumerate(valid moves), 


ww key=operator.itemgetter(1)) 


max_point = encoder.decode point index(max_index) 


greedy move = Move(max_point) 
if greedy move in game state.legal moves(): 


game_state = game_ state.apply move(greedy move) 


next_ player = game state.next player 
winner = game_ state.winner() 
if winner is not None: 
return 1 if winner == next player else -1 
else: 


return 0 





至 此 ， 我 们 完成 了 Agent 框 架 的 开发 以 及 AlphaGo 代 理 的 实现 ， 现 
在 就 可 以 轻松 地 用 一 个 AlphaGoMCTS 实 例 来 进行 对 弈 了 ， 如 代码 清音 





13-22 所 示 。 























代码 清单 13-22 ”用 3 个 深度 神经 网 络 初始 化 一 个 AlphaGo 代 理 








from dlgo.agent import load prediction agent, load policy agent, AlphaGoMC 


TS 
from dlgo.rl import load value agent 
import h5py 


fast_ policy = load prediction agent(h5py.File('alphago sl policy.h5', 'r') 
) 
strong policy = load policy agent(h5py.File('alphago rl1 policy.h5', 
value = load value agent(h5py.File('alphago value.h5', 'r')) 


alphago = AlphaGoMCTS(strong policy, fast policy, value) 


'r')) 

















i 








这 个 代理 与 第 7 章 至 第 12 章 中 开发 的 各 个 代理 用 法 相同 。 特 别 地 ， 
正如 第 8 章 中 介绍 的 那样 ， 我 们 也 可 以 为 这 个 代理 注册 HTTP 和 GTP 前 
端 。 这 样 我 们 就 可 以 亲自 与 AlphaGo 机 器 人 对 弈 ， 或 让 它 与 其 他 机 器 人 
对 列 ， 或 者 甚至 可 以 把 它 注册 到 在 线 围棋 服务 器 (如 附录 E 中 介绍 的 
OGS) 上 并 运行 。 








13.5 训练 自己 的 AlphaGo 可 能 遇 到 的 实践 问题 


在 前 一 节 里 ， 我 们 开发 了 AlphaGo 树 搜索 算法 的 一 个 初步 版 本 。 这 
个 算法 有 可 能 得 到 超越 人 类 水 准 的 棋 力 ， 但 在 那 之 前 读者 首先 得 仔细 阅 
读 下 面 的 内 容 。 首 先 你 需要 确保 能 非常 完美 地 训练 AlphaGo 所 需 的 3 个 深 
度 神 经 网 络 ， 然 后 还 要 保证 树 搜索 中 模拟 运算 足够 快 ， 才 能 够 不 用 为 了 
得 到 AlphaGo 的 下 一 步 动 作 建议 而 等 待 几 个 小 时 。 下 面 几 点 能 够 帮 我 们 
尽量 做 得 更 好 。 





。 训练 的 第 一 步 ， 即 策略 网 络 的 监督 学 习 ， 采 用 了 来 自 KGS 的 16 万 局 
比赛 记录 数据 ， 相 当 于 3 000 万 个 游戏 状态 。DeepMind 的 AlphaGo 团 
队 总 共计 算 了 34 000 万 个 训练 步骤 。 

。 好 消息 是 我 们 也 能 够 获取 到 与 他 们 所 用 的 完全 一 致 的 数据 集 。 
DeepMind 采 用 的 KGS 训 练 集 和 我 们 第 7 章 中 介绍 的 是 一 样 的 。 从 理 
论 上 来 说 ， 没 有 什么 事情 能 阻止 我 们 运行 相同 数量 的 训练 步 又。 但 
坏 消息 是 ， 即 使 我 们 拥有 最 先进 的 GPU， 训 练 过 程 也 可 能 需要 持续 
数 月 甚至 数 年 。 

。 AlphaGo 团 队 解 决 这 个 问题 的 办 法 是 将 训练 过 程 分 布 

Cdistributing) 到 50 个 GPU 上 ， 从 而 将 训练 时 间 缩 短 到 3 周 。 这 个 
选项 对 个 人 来 说 不 太 现 实 ， 尤 其 考虑 到 我 们 还 没有 讨论 过 如 何 用 分 














布 式 方法 来 训练 深度 网 络 。 
。 如 果 想 得 到 比较 理想 的 结果 ， 我 们 能 做 的 只 有 缩小 公式 每 个 部 分 的 
规模 。 例 如 ， 可 以 使 用 第 7 章 或 第 8 章 介 绍 的 更 简单 的 棋盘 编码 
上 器， 或 者 用 更 小 的 网 络 来 蔡 代 本 章 介 绍 的 AlphaGo 策 略 和 价值 网 
络 。 另 外 ， 也 可 以 先 从 一 个 较 小 的 训练 集 开 始 训练 ， 以 便 更 好 地 把 
握 训 练 过 程 的 感觉 。 
在 自我 对 弈 过 程 中 ，DeepMind 总 共生 成 了 3 000 万 个 不 同 的 棋局 。 
这 个 数量 级 远 远 超出 个 人 的 现实 能 力 。 因 此 我 们 的 指导 思想 是 ， 应 
当 在 上 自我 对 奔 中 答 试 生成 与 监督 学 习 中 人 类 棋局 数目 相当 的 棋局 。 
如 果 直 接 采 用 本 章 列 出 的 巨大 网 络 ， 但 只 用 很 少 的 数据 来 训练 它 ， 
那 还 不 如 用 更 小 的 网 络 去 训练 更 多 的 数据 。 
快 策 略 网 络 在 推演 中 使 用 得 很 频繁 ， 因 此 要 加 速 树 搜索 ， 一 定 要 确 
保 快 策略 一 开始 就 真 的 足够 小 ， 例 如 可 以 采用 第 6 章 中 用 过 的 网 
络 。 
我 们 在 前 面 实现 的 树 搜索 算法 是 按 顺 序 计算 模拟 棋局 的 。 为 了 加 速 
这 个 过 程 ，DeepMind 把 搜索 过 程 做 了 并 行 化 处 理 ， 并 使 用 了 总 共 
40 个 搜索 线程 。 在 并 行 版 本 中 ， 多 个 GPU 同 时 评估 深度 网 络 ， 多 个 
CPU 同 时 负责 执行 树 搜索 的 其 他 部 分 。 
在 多 个 CPU 上 运行 树 搜索 理论 上 是 行 得 通 的 (回顾 一 下 第 7 章 也 用 
过 多 线程 来 准备 数据 ) ， 但 是 这 方面 的 内 容 超 出 了 本 书 的 讨论 范 

围 。 
要 改进 对 奔 的 体验 ， 以 速度 换取 强度 ， 我 们 只 能 减少 模拟 的 运行 次 
数 ， 或 减少 搜索 的 深度 。 这 样 就 无 法 超越 人 类 的 表现 了 ， 但 至 少 整 
个 系统 还 是 可 以 运行 的 。 




















从 上 面 几 点 可 以 看 出 ， 虽 然 将 监督 学 习 和 强化 学 习 结 合 起 来 并 创新 
性 地 用 在 树 搜 索 算 法 中 是 一 项 了 不 起 的 工作 ， 但 扩大 神经 网 络 训练 、 评 
佑 和 树 搜索 的 计算 规模 ， 这 些 工 作 所 涉及 的 工程 性 创造 ， 对 构建 世界 首 





个 超越 顶级 职业 棋 手 的 围棋 机 器 人 同样 贡献 恨 多 。 


容 。 


在 第 14 章 中 ， 我 们 将 会 介绍 AlphaGo 系 统 的 下 一 个 开发 阶段 的 内 
它 不 但 完全 跳 过 了 人 类 棋谱 的 监督 学 习 ， 而 且 比 本 章 实 现 的 初始 版 


本 更 加 强大 。 


13.6 ”小结 


要 运行 AlphaGo 系 统 ， 需 要 训练 3 个 深度 神经 网 络 : 2 个 策略 网 络 和 1 
个 价值 网 络 。 

快 策略 网 络 由 人 类 棋局 数据 训练 而 出 ， 必 须 运 行 地 足够 快 ， 以 确保 
在 AlphaGo 的 树 搜索 算法 中 能 够 运行 很 多 推演 。 推 演 的 结果 用 于 评 
估 叶 节点 棋局 。 

强 策 略 网 络 先 由 人 类 数据 训练 而 出 ， 接 着 通过 自我 对 弈 ， 利 用 策略 
梯度 学 习 不 断 改进 。 在 AlphaGo 中 ， 这 个 网 络 用 于 计算 节点 选择 的 
先 验 概 率 。 

价值 网 络 由 自我 对 弈 产生 的 经 验 数据 训练 而 出 。 它 与 策略 推演 一 
起 ， 用 于 进行 叶 节 点 棋局 评估 工作 。 

在 AlphaGo 中 ， 选 择 一 个 动作 意味 着 生成 大 量 模拟 棋局 并 遍历 游戏 
树 。 在 模拟 步骤 完成 的 时 候 ， 选 择 被 访问 次 数 最 多 的 节点 即 可 。 
在 模拟 过 程 中 ， 选 择 Q 值 与 实用 工具 函数 值 之 和 最 大 的 节点 。 

当 到 达 一 个 叶 节 点 的 时 候 ， 利 用 强 策 略 提 供 的 先 验 概率 来 扩展 节 
= 

叶 节 点 用 一 个 综合 价值 函数 评估 。 这 个 函数 综合 了 价值 网 络 的 输 
出 ， 以 及 快 策 略 推演 的 输出 。 

在 算法 的 结束 阶段 ， 根 据 所 选 的 动作 来 更 新 访问 计数 、Q 值 和 实用 
工具 函数 值 。 





第 14 章 AlphaGo Zero: 将 强化 学 习 集 成 
到 树 搜 索 中 


本 章 主要 内 容 
。 使 用 蒙特 卡 洛 树 搜 索 的 一 个 变种 来 进行 游戏 。 
。 将 树 搜索 集成 到 强化 学 习 的 自我 对 弃 过 程 中 。 
。 训练 一 个 神经 网 络 来 强化 树 搜索 算法 。 


当 DeepMind 公 布 AlphaGo 的 第 二 个 版 本 (代号 Master) 的 时 候 ， 全 
世界 的 围棋 爱好 者 都 仔细 研究 了 它 令 人 惊讶 的 行 棋 风 格 。Master 的 棋局 
中 充满 了 各 种 意 想 不 到 的 新 动作 。 虽 然 Master 是 从 人 类 棋局 中 训练 而 出 
的 ， 但 随 着 强化 学 习 的 持续 改进 ， 它 也 能 够 发 现 很 多 人 们 不 曾 用 过 的 新 
动作 。 


这 上 自然 引发 人 们 思考 一 个 问题 ， 如 果 AlphaGo 完 全 不 依赖 人 类 棋 
谐 ， 而 只 通过 强化 学 习 来 进行 训练 ， 会 有 什么 样 的 结果 呢 ? 它 还 能 够 达 
到 超越 人 类 的 水 准 吗 ? 或 者 会 停滞 在 初学 者 水 平 ? 它 是 否 能 够 重新 发 现 
人 类 大 师 们 所 用 的 定式 ?还 是 会 采用 难以 捉摸 的 全 新 下 法 ?在 2017 年 
AlphaGo Zero《〈 简 称 AGZ) 发布 的 时 候 ， 所 有 的 问题 都 得 到 了 解答 。 


AlphaGo Zero 构 建 于 一 套 改 民 的 强化 学 习 系 统 ， 没 有 使 用 任何 人 类 


棋局 输入 ， 完 全 从 零 开始 自我 训练 。 虽 然 它 初期 的 对 春 水 准 甚至 比 人 类 
新 手 还 其 ， 但 随 着 持续 不 断 的 改进 ， 它 很 快 超越 了 AIphaGo 之 前 所 有 的 
版 本 。 


对 我 们 而 言 ，AlphaGo Zero 最 令 人 惊讶 的 一 点 是 它 用 更 少 的 代码 做 
到 了 更 多 的 事情 。 从 许多 方面 看 AlphaGo Zero 都 比 初 始 的 AlphaGo 简 单 
得 多 。 在 AlphaGo Zero 中 ， 我 们 不 需要 再 手工 构建 特征 平面 ， 不 再 依赖 
人 类 棋谱 ， 也 不 需要 再 执行 蒙特 卡 洛 推 演 了 。 相 比 于 AlphaGo 使 用 的 3 个 
神经 网 络 和 3 个 训练 流程 ，AlphaGo Zero 只 用 了 1 个 神经 网 络 和 1 个 训练 





但 是 AlphaGo Zero 竟 然 比 原先 的 AlphaGo 还 要 强大 ! 这 怎么 可 能 
呢 ? 


首先 ，AlphaGo Zero 使 用 了 一 个 特别 巨大 的 神经 网 络 。 它 的 最 强 版 
本 所 使 用 的 神经 网 络 容量 相当 于 大 约 80 个 卷 积 层 ， 比 原始 的 AlphaGo 网 
络 多 4 倍 以 上 。 


其 次 ，AlphaGo Zero 采 用 了 一 种 创新 性 的 强化 学 习 技 术 。 原 始 的 
AlphaGo 单 独 训 练 它 的 策略 网 络 〈 和 我 们 第 10 章 中 描述 的 方式 类 似 ) ， 
然后 它 用 这 个 集 略 网 络 来 改进 树 搜索 ， 而 AlphaGo Zero 从 最 开始 就 将 树 
搜索 与 强化 学 习 集 成 到 了 一 起 。 这 套 独特 的 算法 正 是 本 章 的 重点 内 容 。 


首先 ， 我 们 将 概要 介绍 一 下 AlphaGo Zero 训 练 的 神经 网 络 结构 ， 接 
着 我 们 会 深入 阐述 这 套 树 搜索 算法 。AlphaGo Zero 在 自我 对 宣 与 参与 比 
赛 的 过 程 中 都 采用 同一 个 树 搜 索 算 法 。 之 后 我 们 讨论 AlphaGo Zero 如 何 


从 它 的 经 验 数 据 中 训练 网 络 。 最 后 ， 我 们 简略 地 介绍 使 用 AlphaGo Zero 
的 几 个 实践 技巧 ， 让 训练 过 程 更 加 稳定 高 效 。 


14.1 为 树 搜 索 构 建 一 个 神经 网 络 


AlphaGo Zero 只 用 了 一 个 神经 网 络 ， 它 有 一 个 输入 和 两 个 输出 ， 
中 一 个 输出 产生 动作 的 概率 分 布 ， 男 一 个 输出 产生 单个 值 ， 表示 棋局 是 
利于 白 方 还 是 黑 方 。 这 个 结构 和 我 们 在 第 12 章 中 用 过 的 演员 -评价 学 习 
相同 。 











但 AlphaGo Zero 网 络 和 第 12 章 中 的 网 络 还 有 一 处 细微 差别 ， 即 比赛 
中 对 跳 过 回合 的 处 理 。 之 前 的 自我 对 奔 用 例 中 ， 我 们 会 在 代码 中 直接 写 
下 跳 过 回合 的 逻辑 。 例 如 ， 第 9 章 的 PolicyAgent 自 我 对 窒 机 器 人 包含 
了 一 段 自 定义 逻辑 ， 避 免 棋子 落 到 己方 眼 上 导致 自 吃 的 局 面 。 如 果 唯 一 
的 合法 动作 也 会 导致 自 吃 ， 那 么 PolicyAgent 就 会 选择 跳 过 回合 。 有 了 
这 套 逻 辑 ， 目 我 对 三 棋局 才能 保证 以 合理 的 方式 终结 。 














而 在 AlphaGo Zero 中 ， 由 于 自我 对 弃 及 用 了 树 搜 索 算 法 ， 就 不 再 需 
要 这 套 目 定义 逻辑 了 。 我 们 可 以 把 跳 过 回合 与 其 他 动作 一 视 同 仁 ， 并 期 
望 机 器 人 能 自己 学 会 选择 跳 过 回合 的 时 机 。 如 果树 搜索 发 现 落 于 会 导致 


WE 合 。 这 也 意味 着 ， 动 作 和 输出 除了 返回 棋盘 
上 每 个 点 的 落 子 概率 ， 还 i 回合 的 概率 。 因 此 网 络 的 输出 癌 








量 尺寸 不 再 是 19x19=361 pg 而 要 改 为 19x19+1=362， 用 
来 表示 棋盘 的 每 个 点 ， 再 加 上 跳 过 回合 的 动作 。 图 14-1 展 示 了 这 套 新 的 
编码 方案 。 









向 量 中 的 每 个 元 素 对 
应 棋盘 上 的 一 个 点 。 








0.02 
0.02 ~ 最 后 一 个 元 素 对 应 
跳 过 回合 的 动作 。 
行动 向 量 ， 其 尺寸 
等 于 棋盘 点 数 加 1。 





图 14-1 将 可 能 的 动作 编码 为 一 个 向 量 。 和 以 往 相 同 ，AlphaGo Zero 使 用 一 个 向 量 ， 每 个 元 素 
映射 到 棋盘 的 一 个 点 。AlphaGo Zero 还 在 向 量 最 后 附加 了 一 个 元 素 ， 并 映射 到 跳 过 回合 的 动 
作 。 本 例 的 棋盘 尺寸 是 5sx5， 因 此 这 个 回 量 的 大 小 为 22， 其 中 25 代 表 棋 盘 的 点 数 ，1 代 表 跳 过 回 


人 人 
日 



































这 也 意味 着 我 们 需要 对 棋盘 编码 器 稍 加 修改 。 前 面 章 节 的 棋盘 编码 
器 中 实现 了 encode_point 和 decode_ point _ index 方 法 ， 用 来 在 癌 量 
元 素 与 棋盘 点 之 间 进 行 转换 。 而 在 AlphaGo Zero 风 格 的 机 器 人 里 ， 我 们 
需要 将 这 两 个 方法 蔡 换 成 新 的 函数 encode_move 和 
decode_move_index〔 如 代码 清单 14-1 所 示 ) 。 新 函数 中 对 棋盘 棋子 的 
编码 仍然 不 变 ， 但 会 在 最 后 新 增 一 个 下 标 来 表示 跳 过 回合 的 动作 。 














代码 清单 14-1 ”修改 棋盘 编码 器 以 支持 跳 过 回合 

















class ZeroEncoder(Encoder): 


def encode move(self, move): 
if move.is play: 
return (self.board size * (move.point.row - 1) + 
点 的 编码 方式 与 之 前 相同 
(move.point.col - 1)) 
elif move.is pass: 
return self.board size * self.board size <--- 使 用 后 一 个 下 
标 来 代表 跳 过 回合 的 动作 
raise ValueError('Cannot encode resign move') <--- ”认输 动作 不 在 


神经 网 络 的 学 习 范 围 内 






































def decode move index(self, index): 
if index == self.board size * self.board size: 
return Move.pass_ turn() 
row = index // self.board size 
col = index % self.board size 
return Move.play(Point(row=row + 1, col=col + 1)) 


num_moves(self): 
return self.board size * self.board size + 1 





除 对 跳 过 回合 的 处 理 之 外 ，AlphaGo Zero 网 络 的 输入 和 输出 与 第 12 
章 介绍 的 网 络 完全 相同 。 在 网 络 内 部 ，AlphaGo Zero 采 用 了 深度 极 深 的 
卷 积 层 栈 ， 并 应 用 了 几 套 现代 化 改进 技术 ， 证 训练 过 程 变 得 更 加 顺畅 。 
我 们 会 在 本 章 最 后 部 分 简略 介绍 这 几 套 技术 。 巨 大 的 网 络 拥 有 强大 的 能 
力 ， 但 也 会 需要 更 多 的 计算 ， 不 论 是 训练 还 是 自我 对 三 过 程 。 如 有 果 没 有 
DeepMind 那 样 的 硬件 条 件 ， 最 好 还 是 尝试 较 小 的 网 络 。 请 读者 自由 探 
索 ， 在 强度 和 速度 之 间 找 到 适合 自己 需求 的 最 佳 平 衡 。 

















至 于 棋盘 编码 ， 则 可 以 使 用 本 书 介绍 的 任何 编码 方案 ， 从 第 6 章 介 
绍 的 基本 编码 占 到 第 13 章 介绍 的 48 平 面 编码 器 都 可 以 。AlphaGo Zero 本 
号 采用 了 最 简单 的 编码 器 : 只 有 黑子 和 白 子 在 棋盘 上 的 位 置 ， 再 加 上 一 





个 平面 用 于 表示 当前 回合 执 子 方 。 为 了 处 理 劫 争 ，AlphaGo Zero 还 增加 
了 平面 来 记录 之 前 的 7 个 棋局 。 不 过 并 没有 什么 技术 原因 阻止 我 们 使 用 
与 游戏 相关 的 特征 平面 ， 它 们 还 可 能 会 让 训练 速度 变 得 更 快 。 
DeepMind 尽 可 能 排除 对 人 类 知识 的 依赖 的 部 分 原因 ， 可 能 是 想 要 证 明 
这 么 做 是 有 可 能 成 功 的 。 而 在 我 们 自己 的 AlphaGo Zero 强 化 学 习 实 验 
中 ， 可 以 自由 地 和 尝试 不 同类 型 的 特征 平面 组 合 。 








14.2 使 用 神经 网 络 来 指导 树 搜索 


在 强化 学 习 中 ， 策 略 指 的 是 告诉 代理 如 何 进行 决策 的 算法 。 在 之 前 
的 强化 学 习 示例 中 ， 我 们 使 用 的 策略 都 相对 简单 。 例 如 ， 在 第 10 章 的 策 
略 梯度 学 习 和 第 12 章 的 演员 -评价 学 习 中 ， 有 一 个 神经 网 络 直接 告诉 我 
们 该 选择 哪 一 个 动作 ， 而 这 就 是 策略 的 全 部 了 。 第 11 章 介绍 的 Q 学 习 策 
略 需要 计算 每 一 个 可 能 动作 的 Q 值 ， 然 后 直接 选择 Q 值 最 高 的 动作 即 
可 。 


而 AlphaGo Zero 的 集 略 则 包含 了 茶 种 形式 的 树 搜索 。 它 仍然 使 用 神 
经 网 络 ， 但 目的 是 指导 树 搜 索 ， 而 不 是 直接 选择 或 评估 动作 。 在 上 自我 对 
列 过 程 中 引入 树 搜 索 能 够 让 棋局 变 得 更 为 真实 ， 同 样 地 ， 在 训练 中 这 人 么 
做 也 会 让 训练 过 程 变 得 更 加 稳定 。 








AlphaGo Zero 的 树 搜索 算法 建立 在 我 们 已 学 过 的 知识 基础 之 上 。 如 
果 读 者 已 经 学 握 了 第 4 章 介绍 的 蒙特 卡 洛 树 搜 索 和 第 13 章 的 原始 
AlphaGo， 那 么 AlphaGo Zero 的 树 搜 索 看 起 来 会 让 人 觉得 很 熟悉 。 表 14- 
1 比较 了 这 3 个 算法 。 我 们 会 先 描述 AlphaGo Zero 用 来 表示 游戏 树 所 用 的 





数据 结构 ， 接 着 逐步 探讨 AlphaGo Zero 为 游戏 树 添 加 新 节点 时 所 使 用 的 
让 








表 14-1 树 搜索 算法 比较 


和 和 证 











UCT 得 分 + 综合 网 络 先 验 概 率 综 可 的 价值 


树 搜索 算法 在 棋盘 游戏 中 应 用 的 总 体 思路 是 找到 一 个 能 够 得 到 最 佳 




















结果 的 动作 。 我 们 通过 观察 之 后 的 可 能 动作 序列 来 判断 动作 的 优 劣 。 但 
由 于 动作 序列 的 可 能 数目 实在 太 大 ， 因 此 我 们 只 得 仅仅 观察 很 小 一 部 分 
就 做 出 决策 。 树 搜索 算法 的 核心 技艺 就 是 如 何 选 择 要 探索 的 分 支 ， 以 能 
够 在 最 短 的 时 间 里 得 到 最 佳 的 结果 。 








和 MCTS 算 法 一 样 ，AlphaGo Zero 的 树 搜索 算法 会 运行 固定 轮 次 ， 
每 一 轮 会 同 搜 索 树 添加 一 个 新 的 棋局 。 随 着 一 轮 轮 搜索 的 执行 ， 搜 索 树 
会 变 得 越 来 越 大 ， 而 算法 的 估计 也 会 变 得 更 准确 。 为 了 方便 演示 ， 假 设 
我 们 已 经 在 算法 执行 的 过 程 之 中 : 我 们 已 经 构建 了 一 柠 不 完整 的 搜索 
树 ， 正 要 扩展 一 个 新 的 棋局 。 图 14-2 展 示 了 一 棵 这 样 的 游戏 树 示 例 。 


@O 
黑 方 回合 ， 需 要 一“*@@OO 
在 这 个 棋局 下 先 
择 一 个 落 子 动作 。 
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ss 


2 














2; 一 个 分 支 ， 代 表 这 次 


© 
人 搜索 还 没有 访问 过 的 
了 | 汪 从 这 个 棋局 状态 一 个 合法 动作 。 


和 二 开始 的 一 个 可 能 


J 
得 果 











图 14-2 一 个 部 分 完成 的 AlphaGo Zero 风 格 搜索 树 。 在 这 个 例子 中 ， 下 一 回合 轮 到 黑 方 沙子 ， 
而 搜索 已 经 探索 了 3 个 可 能 的 游戏 状态 。 搜 索 树 还 包括 了 很 多 代表 尚未 访问 过 的 动作 的 分 文 ， 但 
限于 书页 空间 ， 这 里 省 略 了 大 多 数 分 文 





























这 标 游戏 树 的 每 个 节点 都 代表 一 个 可 能 的 棋局 。 从 那个 棋局 开始 ， 
我 们 还 知道 跟 进 动作 中 哪些 是 合法 的 。 算 法 已 经 访问 过 其 中 一 些 动作 ， 
但 是 还 没完 成 全 部 裔 历 。 每 个 动作 无 论 是 否 访问 过 ， 都 会 创建 一 个 分 文 
(branch) 。 分 文 会 跟踪 如 下 信息 。 








。 动作 的 先 验 概率 ， 代 表 在 答 试 访问 它 之 前 我 们 对 这 个 动作 的 好 坏 的 
期 望 值 。 

。 在 树 搜索 中 访问 过 这 个 分 文 的 次 数 。 这 个 值 可 能 为 0。 

。 经 过 这 个 分 支 的 所 有 访问 的 期 望 值 。 这 个 值 是 所 有 经 过 该 分 文 的 访 
问 的 平均 值 。 要 更 方便 地 更 新 这 个 平均 值 ， 可 以 存储 所 有 值 的 和 ， 
然后 通过 除 以 访问 计数 来 得 到 平均 值 。 





对 于 已 经 访问 过 的 每 个 分 支 ， 节 后 还 包括 指 癌 一 个 子 节 点 的 指针 。 


代码 清单 14-2 中 的 代码 定义 了 一 个 最 简单 的 Branch 结 构 ， 包 含 基 本 分 文 
统计 信息 。 




















代码 清单 14-2 用 于 跟踪 分 支 统 计 的 结构 











class Branch: 
def _init (self, prior): 


self.prior = prior 
self.visit count = 
self.total value = 60.6 








现在 可 以 开始 构建 数据 结构 来 表示 搜索 树 了 。 代 码 清单 14-3 中 的 代 
码 定义 了 一 个 ZeroTreeNode 类 。 








代码 清单 14-3 AlphaGo Zero 风 格 搜索 树 的 一 个 节点 





class ZeroTreeNode : 
def _ init (self, state, value, priors, parent, last move): 
self.state = state 
self.value = value 
self.parent = parent <--- 在 搜索 树 的 根 节 点 中 ，parent 和 1ast_move 
都 是 None 
self.last move = last move 
self.total visit count = 1 
self.branches = {} 
for move, p in priors.items() : 
if state.is valid move(move): 
self.branches[move] = Branch(p) 


self.children = {} <--- ” 稍 后 children 变 量 会 将 一 个 move 了 映射 到 另 一 
ZeroTreeNode [ 





























def moves(self): <--- ”返回 一 个 列表 ， 包 含 该 节点 的 所 有 可 能 动作 


return self.branches.keys() 














def add child(self, move, child node): <--- ”人 允许 向 搜索 树 添加 新 的 节点 
self.children[move] = child node 























def has_ child(self, move): <--- 检查 某 个 特定 的 动作 是 合 有 
return move in self.children 回 一 个 特定 的 子 节点 
































ZeroTreeNode 类 还 包含 几 个 辅助 方法 ， 可 以 从 它 的 子 节 点 读 取 统 
计 信 息 ， 如 代码 清单 14-4 所 示 。 














代码 清单 14-4 用 于 读 取 子 节点 统计 信息 的 辅助 方法 














class ZeroTreeNode: 


def expected value(self, move): 
branch = self.branches[move] 
if branch.visit count == 
return 6.0 
return branch.total value / branch.visit count 


def prior(self, move): 
return self.branches[movel].prior 


def visit count(self, move): 
if move in self.branches: 
return self.branches[move|.visit count 
return 6 





14.2.1 沿 搜索 树 下 行 





每 一 轮 搜索 都 沿 着 树 从 上 而 下 进行 。 下 行 的 目的 是 观察 未 来 的 可 能 
棋局 是 什么 样 的 ， 这 样 就 可 以 评估 它 是 好 是 坏 了 。 要 得 到 一 个 准确 的 评 
估 ， 应 当 假设 对 手 会 返回 最 强 的 回应 。 当 然 ， 现 在 我 们 还 不 知道 最 强 的 
回应 是 什么 ， 只 能 通过 尝试 各 个 动作 来 找到 哪 一 个 更 好 。 本 市 描述 的 一 
个 算法 ， 能 够 在 面临 未 知 的 情况 下 选择 更 强 的 动作 。 








对 于 每 个 可 能 的 动作 ， 期 望 值 为 我 们 提供 了 动作 好 坏 的 估计 。 但 是 
这 个 估计 并 不 总 是 准确 。 如 果 论 费 更 多 的 时 间 去 分 析 菜 一 分 文 ， 它 的 估 
计 束 会 更 准确 。 





我 们 可 以 在 最 好 的 几 个 变化 中 选择 一 个 进行 更 深入 的 搜索 ， 从 而 进 
一 步 改 善 它 的 估计 。 或 者 也 可 以 深入 一 个 探索 较 少 的 分 文 ， 以 提高 其 佑 
计 水 平 。 这 个 动作 也 许 会 比 开始 所 想 的 更 好 ， 而 做 出 判断 的 唯一 方法 ， 
就 是 更 深 地 扩展 它 。 所 以 这 里 我 们 又 一 次 遇 到 了 深入 挖掘 与 广泛 探索 这 
两 个 不 同 目标 的 矛盾 。 








原始 的 MCTS 算 法 用 UCT 〈 即 搜索 树 最 大 置信 上 限 ， 参 见 第 4 章 ) 
公式 来 平衡 这 两 个 目标 。UCT 公 式 可 以 在 两 个 不 同 的 指标 间 做 出 权衡 。 


。 如 果 一 个 分 文 已 经 被 访问 过 很 多 次 ， 那 么 它 的 期 望 值 就 更 可 信 。 在 
这 种 情况 下 ， 我 们 倾 问 于 拥有 更 高 估计 值 的 分 文 。 

如 果 一 个 分 支 的 访问 次 数 很 少 ， 它 的 期 望 值 可 能 有 很 大 偏差 。 无 论 
它 的 期 望 值 是 好 还 是 坏 ， 我 们 都 希望 再 访问 几 次 以 改善 它 的 估计 。 


AlphaGo Zero 增 加 了 第 三 个 指标 。 








在 访问 次 数 较 少 的 那些 分 文中 ， 应 当 倾 癌 于 具有 更 高 先 验 概率 的 分 
文 。 这 些 分 文 对 应 的 动作 ， 在 考虑 本 局 棋局 的 具体 情况 之 前 ， 从 和 直 
觉 上 在 己 经 显 得 不 错 了 。 











用 数学 语言 表示 ，AlphaGo Zero 的 评分 函数 如 下 所 示 : 





这 个 等 式 包括 以 下 几 个 音 


os I 不 没有 访问 过 
分 文 ， 则 它 的 值 为 0) : 
We 





。 N 是 当前 节点 的 parent 节 点 的 访问 计数 ; 

。 1 是 child 子 节 点 分 六 的 访问 计数 ; 

ee 泛 探索 的 权重 因子 ， 通 常 来 说 需要 
过 试 错 来 决定 这 个 值 。 








观察 图 14-3 中 的 示例 。 分 支 A 已 经 被 访问 过 两 次 ， 并 且 有 一 个 稍 好 
的 评估 值 Q = 0.1。 分 文 B 被 访问 过 一 次 ， 有 一 个 很 坏 的 评估 值 : Q = 
-0.5。 分 文 C 还 没有 被 访问 ， 但 是 它 的 先 验 概率 P = 0.038。 







-@O 从 这 个 棋局 状态 开始 ， 
N 代 表 所 有 分 支 的 [1] 2 


| | 我 们 希望 选择 一 个 搜索 
〇 -一 -一 分支 继续 进行 探索 。 
总 访问 次 数 。 | | 
GO 十 -六 一 





| 
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和 @+ 
分 支 A 分 支 B 分 支 C: 
n=2 n=1 n=0 
P=0.068 P=0.042 P=0.038 
0Q=0.1 Q=-0.5 0=0 
子 分 支 要 跟踪 : 
访问 计数 (n) 


动作 的 先 验 概率 (P) 
期 望 值 《Q) 








图 14-3 ”在 AlphaGo Zero 树 搜索 中 选择 一 个 分 支 继续 探索 。 在 这 个 示例 中 ， 从 开始 的 棋局 起 ， 
我 们 正在 考虑 3 个 分 文 。 在 实际 情况 中 会 有 非常 多 可 能 的 动作 ， 这 里 为 节省 空间 都 省 略 了。 要 选 
择 一 个 分 支 ， 需要 考虑 这 个 分 支 的 访问 计数 、 这 个 分 文 的 期 望 值 以 及 这 个 动作 的 先 验 概率 



































表 14-2 展 示 了 如 何 计算 不 确定 项 。 分 支 A 的 Q 项 最 高 ， 表 示 我 们 已 
经 在 这 个 分 文 下 遇 到 过 一 些 恨 好 的 棋局 。 分 文 C 的 UCT 项 最 高 : 由 于 我 
们 还 没有 访问 过 它 ， 因 此 这 个 分 支 的 不 确定 性 最 高 。 分 支 B 的 评估 值 低 
于 分 文 A， 且 比分 支 C 的 访问 计数 更 高 ， 所 以 它 不 太 可 能 是 一 个 好 的 选 





表 14-2 ”选择 一 个 继续 跟 进 的 分 支 


假设 分 文 B 已 经 被 排除 了 ， 那 么 在 分 文 A 和 分 文 C 之 间 该 如 何 选择 
呢 ? 这 依赖 于 参数 c 的 值 。 如 果 参 数 c 很 小 ， 则 会 有 利于 高 评估 值 的 分 支 
(在 本 例 中 即 分 支 A〉; 而 如 果 c 值 较 大 ， 则 有 利于 不 确定 性 更 大 的 分 支 
(在 本 例 中 即 分 支 C) 。 例 如 ， 如 果 c = 1.0， 我 们 会 选择 分 支 A《〈 评 分 为 
0.139 一 0.065。 如 果 c= 4.0， 我 们 就 会 选择 分 文 C《〈 评 分 为 0.260 一 
0.256) 。 两 个 选择 客观 上 看 都 不 是 绝对 正确 的 ， 它 只 能 是 一 个 折 中 。 
代码 清单 14-5 展 示 了 如 何在 Python 中 计算 这 个 评分 。 


























代码 清单 14-5 ”选择 一 个 分 支 





class ZeroAgent(Agent ) : 


def select branch(self, node): 
total n = node.total visit count 


def score branch(move): 
q = node.expected value(move) 
p = node.prior(move) 


n = node.visit count(move) 
return q + self.c * p * np.sqrt(total n) / (n + 1) 


return max(node.moves(), key=score_ branch) <--- node.moves() 是 





(T 








一 个 动作 列表 。 当 传 入 key=score_branch 时 ，max 会 返回 score_branch 函 数值 最 高 的 分 文 








选 好 分 文 之 后 ， 就 要 继续 对 它 的 子 节点 进行 相同 的 计算 ， 以 选择 下 
一 个 分 文 ， 如 代码 清单 14-6 所 示 。 我 们 需要 重复 这 个 相同 的 过 程 ， 最 终 
到 达 一 个 没有 子 节点 的 分 文才 停止 














代码 清单 14-6” 沿 着 搜索 树 下 行 











class ZeroAgent(Agent ) : 
def select move(self, game_state): 
root = self.create node(game_ state) <--- 14.2.2 节 会 展示 create_ 
node 的 实现 


for i in range(self.num rounds): <--- ”这 是 每 一 个 动作 都 会 














次 的 过 程 中 的 第 一 步 。self.num_moves 用 来 控制 重复 这 个 搜索 过 程 的 次 数 


node = root 











next move = self.select branch(node) 
while node.has_ child(next move): <--- ” 当 has_child 返 回 False 
时 ， 表 示 已 经 到 达 了 树 的 底部 
node = node.get child(next move) 
next move = self.select branch(node) 





14.2.2 扩展 搜索 树 


人 至此， 我 们 已 经 到 达 了 搜索 树 的 一 个 还 未 扩展 的 分 文 。 由 于 搜索 树 
上 没有 对 应 当前 动作 的 节点 ， 已 经 无 法 继续 搜索 了 了。 下 一 步 是 创建 一 个 
新 节点 ， 并 添加 到 搜索 树 中 。 





要 创建 一 个 新 市 点， 需要 根据 之 前 的 游戏 状态 执行 当前 的 动作 ， 并 
得 到 一 个 新 的 游戏 状态 。 接 着 把 新 游戏 状态 输入 神经 网 络 中 ， 它 会 给 你 


两 样 很 有 价值 的 东西 : 一 个 是 新 游戏 状态 下 所 有 可 能 的 跟 进 动作 的 先 验 
估计 值 ， 妃 一 个 是 新 游戏 状态 的 估计 值 。 我 们 可 以 利用 这 些 信息 来 初始 
化 新 市 点 各 个 分 文 的 统计 信息 ， 如 代码 清单 14-7 所 示 。 














代码 清单 14-7 ”在 搜索 树 上 创建 一 个 新 节点 











class ZeroAgent(Agent ) : 


def create node(self, game_ state, move=None, parent=None): 
state tensor = self.encoder.encode(game_ state) 
model_ input = np.array([state tensor]) <--- Keras 的 predict 函 数 
是 一 个 批量 函数 ， 接 受 一 个 样本 数组 参数 。 因 此 必须 把 board_tensor 用 一 个 数组 封装 起 来 
priors, values = self.model.predict(model input ) 
priors = priors[6] <--- 类 似 地 ，predict 函 数 返 回 一 个 数组 ， 包 含 多 个 
结果 ， 所 以 必须 取出 它 的 第 一 项 
value = values[6][6] 
move_priors = { <--- ”将 先 验 癌 量 解析 出 来 并 封装 成 一 个 字典 ， 从 move 对 
象 映 冉 到 对 应 的 先 验 概率 
self.encoder.decode move index(idx): p 
for idx, p in enumerate(priors) 



























































} 
new_node = ZeroTreeNode( 
game_state, value, 
move_priors, 
parent, move) 
if parent is not None: 
parent.add child(move, new_node) 
return new_ node 





最 后 ， 偿 需要 沿 着 搜索 树 上 行 回去 ， 并 一 路 更 新 当前 市 点 每 一 个 父 

点 的 统计 信息 ， 如 图 14-4 和 代码 清单 14-8 所 示 。 对 于 这 条 路 径 上 的 
| 
点 ， 视 角 会 从 黑 方 切换 成 白 方 ， 因 此 每 一 步 都 要 切换 值 的 正 负 号 。 





N+=1, 7+4=0.7,V= TIN 








N+=1,7-=0.7,F= 7N 


| 更 新 所 有 父 节点 
-前 统计 信息 。 
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对 前 一 个 游戏 状态 执行 所 先 由 
的 动作 ， 创 建 一 个 新 节点 。 经 网 络 得 出 。 



































图 14-4 扩展 一 哥 AGZ 风 格 的 搜索 树 。 首 先 需要 计算 新 游戏 状态 。 接 着 从 这 个 游戏 状态 创建 一 

个 新 节点 ， 并 添加 到 搜索 树 上 。 然 后 神经 网 络 会 给 出 这 个 游戏 状态 的 估计 值 。 最 后 需要 更 新 这 

个 新 节点 的 所 有 父 节点 统计 信息 。 对 于 每 个 父 节 点 ， 给 访问 计数 N 加 1， 并 更 新 平均 值 Y。 这 
里 ，T 代 表 经 过 一 个 节点 的 所 有 访问 的 总 计数 ， 这 个 计数 可 以 方便 重新 计算 平均 值 






































代码 清单 14-8 扩展 搜索 树 ， 并 更 新 所 有 节点 的 统计 信息 





class ZeroTreeNode: 


def record visit(self, move, value): 
self.total visit count += 1 
self.branches[move].visit count += 1 
self.branches[movel].total value += value 


class ZeroAgent(Agent): 


def select move(self, game_state): 


new_state = node.state.apply move(next_ move) 
child node = self.create nodel 
new_state, parent=node) 


move = next move 
value = -1 * child node.value <--- 在 搜索 树 的 每 一 层 ， 都 需要 
切换 对 弈 双方 的 视角 。 因 此 必须 将 价值 乘 以 -1: 对 黑 方 有 利 的 价值 就 会 对 白 方 不 利 ， 反 之 ， 























对 黑 方 不 利 的 价值 就 会 对 白 方 有 利 
while node is not None: 
node.record visit(move, value) 
move = node.last move 
node = node.parent 
value = -1 * value 








不 断 地 重复 这 个 过 程 ， 每 一 轮 部 会 扩展 搜索 树 。AGZ 在 自我 对 穿 过 
程 中 每 个 动作 会 进行 大 约 1 600 次 扩展 。 在 比赛 中 ， 如 末 时 间 人 允许 ， 就 
应 当 尽 可 能 运行 更 多 算法 回合 。 机 器 人 执行 的 算法 回合 越 多 ， 它 选择 的 
动作 就 会 越 好 。 











14.2.3 ”选择 一 个 动作 








搜索 树 尺 量 扩充 之 后 ， 束 到 了 该 选择 一 个 动作 的 时 候 了 。 最 简单 的 
动作 选择 规则 残 是 选择 访问 计数 最 高 的 动作 。 





为 什么 用 访问 计数 ， 而 不 是 期 望 值 呢 ? 我们 可 以 认为 访问 次 数 最 多 
的 分 支 也 会 有 很 高 的 期 望 值 。 为 什么 ?请 参考 前 面 的 分 支 选择 公式 。 当 
分 支 的 访问 次 数 不 断 增加 时 ， 因 子 Vn+1) 会 变 得 越 来 越 小 ， 因 此 ， 分 
文选 择 阔 数 会 倾向 于 只 根据 Q 值 来 选择 。 这 样 ， 拥 有 更 蜗 Q 值 的 分 文 囊 
会 获得 最 多 的 访问 次 数 。 


现在 ， 如 末 一 个 分 文 的 访问 次 数 很 少 ， 那 么 什么 情况 都 有 可 能 友 
生 。 它 的 真实 Q 值 可 能 很 小 ， 也 可 能 很 大 。 但 是 ， 由 于 访问 次 数 太 少 ， 
我 们 暂时 无 法 确信 它 的 估计 值 。 如 采 直 接 选 择 Q 值 最 高 的 分 文 ， 就 有 可 
能 会 选 到 一 个 访问 计数 为 1 的 分 文 ， 而 这 个 分 文 的 真实 价值 可 能 会 比 佑 
计 值 小 得 多 。 这 就 是 应 当 根 据 访 问 计数 而 不 是 Q 值 来 选择 分 文 的 原 
《如 代码 清单 14-9 所 示 ) 。 这 么 做 能 保证 我 们 选择 的 分 文 既 有 很 高 的 舍 
计 值 ， 又 有 足够 可 靠 的 估计 。 








代码 清单 14-9 选择 访问 计数 最 高 的 动作 





class ZeroAgent(Agent ) : 


def select move(self, game_state): 





return max(root.moves(), key=root.visit count) 


与 本 书 的 其 他 自我 对 歼 代 理 不 同 ，ZeroAgent 并 不 包含 处 理 跳 过 回 
合 的 特定 逻辑 。 这 是 因为 我 们 已 经 将 跳 过 回合 这 个 动作 融入 搜索 树 了， 
可 以 把 它 和 其 他 任何 动作 一 样 处 理 。 





现在 我 们 已 经 完成 了 ZeroAgent 的 实现 ， 可 以 接着 实现 执行 自我 对 
弈 的 simulate_game 函 数 了 ， 如 代码 清单 14-10 所 示 。 























代码 清单 14-10 ”模拟 一 局 自我 对 弈 比赛 





def simulate game( 
board_ size, 
black agent, black collector, 
white agent, white collector): 
print('Starting the game!') 
game = GameState.new game(board size) 
agents = { 
Player.black: black agent, 


Player.white: white agent, 


} 


black_collector.begin episode() 

white collector.begin episode() 

while not game.is over(): 
next move = agents[game.next player].select move(game) 
game = game.apply move(next move) 


game_ result = scoring.compute game result(game) 
if game result.winner == Player.black: 
black_collector.complete episode(1) 
white collector.complete episode(-1) 
else: 
black_collector.complete episode(-1) 
white collector.complete episode(1) 





14.3 训练 


价值 输出 的 训练 目标 有 两 个 值 : 如 果 代理 获得 本 局 胜利 ， 则 是 1; 
如 果 失 败 ， 则 是 -1。 在 经 过 计算 大 量 棋局 的 平均 值 之 后 ， 代 理 将 会 学 习 
到 这 两 个 极 值 之 间 的 茶 个 值 ， 用 来 表示 机 需 人 的 获胜 率 。 这 与 第 11 章 的 
Q 学 习 和 第 12 章 的 演员 -评价 学 习 完 全 一 致 。 





动作 输出 则 稍 有 不 同 。 与 第 10 章 的 策略 学 习 和 第 12 章 的 演员 -评价 
学 习 一 样 ， 神 经 网 络 只 有 一 个 输出 ， 产 生 所 有 合法 动作 的 概率 分 布 。 在 
策略 学 习 中 ， 网 络 的 训练 目标 是 在 代理 获胜 时 匹配 到 代理 所 选择 的 动 
作 。 而 AlphaGo Zero 的 工作 方式 则 有 微妙 的 区 别 ， 它 的 网 络 的 训练 目标 
是 匹配 树 搜索 过 程 中 每 个 动作 的 访问 次 数 。 


这 么 做 为 什么 能 提高 棋 力 呢 ? 可 以 思考 一 下 MCTS 风 格 的 搜索 算法 
是 如 何 工作 的 。 我 们 暂时 先 假设 已 经 有 一 个 大 致 正确 的 价值 函数 了 ， 它 
不 需要 太 准 确 ， 只 要 能 粗略 区 分 出 胜局 还 是 败局 就 可 以 。 接 着 想象 我 们 








完全 抛弃 先 验 概 京 而 直接 运行 搜索 算法 。 根 据 设计 ， 搜 索 会 在 那些 前 景 
更 好 的 分 支 上 花费 更 多 时 间 。 分 文选 择 逻 辑 会 保证 :;: UCT 公 式 中 的 Q 项 
值 越 大 意味 着 高 价值 的 分 文 会 越 多 地 被 选择 。 如 果 我 们 拥有 无 限 的 时 间 
来 运行 搜索 ， 它 会 最 终 收 敛 于 最 佳 动 作 。 








在 经 过 足够 轮 次 的 树 搜索 之 后 ， 就 可 以 把 访问 计数 当 作 检验 指标 
了 。 正 是 因为 我 们 已 经 检查 过 如 果 执 行 它们 会 发 生 什 么 情况 ， 所 以 才 知 
道 它们 的 优 务 。 因 此 搜索 计数 束 成 了 训练 先 验 函数 的 目标 。 








如 果 先 验 函 数 有 足够 的 运行 时 间 ， 它 就 能 尝试 预测 树 搜索 应 当 在 哪 
里 下 功夫 。 一 旦 在 前 儿 轮训 练 中 学 习 到 了 一 个 先 验 函 数 ， 接 下 来 的 树 搜 
索 融 能 直接 去 搜索 更 重要 的 分 文 ， 从 而 节省 更 多 的 时 间 。 有 了 准确 的 先 
验 函 数 ， 搜 索 算 法 惑 能 够 只 执行 少量 的 推 澳 ， 也 能 达到 那些 更 慢 的 、 需 
要 大 量 推 演 的 搜索 算法 相似 的 结果 。 从 某 种 程度 上 可 以 理解 为 网 络 “ 记 
住 * 了 之 前 搜索 中 发 生 的 事情 ， 并 利用 这 些 知 识 来 跳跃 前 进 。 








要 按照 这 种 方式 建立 训练 流程 ， 需 要 在 每 一 个 动作 之 后 保存 搜索 计 
数 。 在 之 前 的 章节 中 ， 我 们 使 用 了 一 个 通用 的 ExperienceCollector 
类 ， 它 可 以 用 于 任何 强化 学 习 实现 。 而 在 本 例 中 搜索 计数 是 AlphaGo 
Zero 独 有 的 ， 所 以 需要 制作 一 个 和 目 定义 的 收集 器 。 它 们 的 结构 基本 相 
同 ， 如 代码 清单 14-11 和 代码 清单 14-12 所 示 。 





代码 清单 14-11 为 AlphaGo Zero 风 格 学 习 定 制 的 经 验收 集 器 














class ZeroExperienceCollector: 
def _ init (self): 
self.states = [] 
self.visit counts = [|] 


self.rewards = [|] 
self. current episode states = [|] 
self. current episode visit counts 


ll 
I 
[mm | 


def begin episodel(self): 
self. current episode states = [|] 
self. current episode visit counts 


[] 


def record decision(self, state, visit counts): 
self. current episode states.append(state) 
self. current episode visit counts.append(visit counts) 


def complete episode(self, reward): 
num_states = len(self. current episode states) 
self.states += self. current episode states 
self.visit counts += self. current episode visit counts 
self.rewards += [reward for _ in range(num_ states)] 


self. current episode states = [|] 
self. current episode visit counts = [|] 











代码 清单 14-12 ”将 决策 传递 给 经 验收 


洽 








class ZeroAgent(Agent ) : 
def select move(self, game_state): 


if self.collector is not None: 
root_ state tensor = self.encoder.encode(game state) 


visit counts = np.array([ 
root.visit count( 
self.encoder.decode move index(idx)) 
for idx in range(self.encoder.num moves()) 


]) 


self.collector.record decision( 
root_ state tensor, visit counts) 





神经 网 络 的 动作 输出 采用 了 softmax 激 活 函 数 。 前 面 讲 过 ，softmax 
激活 函数 能 够 保证 它 的 输出 值 忠 和 为 1。 在 训练 时 也 应 当 确 保 训练 目标 
总 和 为 1。 要 做 到 这 一 点 ， 可 以 把 总 的 访问 计数 除 以 它 的 总 和 。 这 个 操 
作 称 为 归 一 化 。 图 14-5 展 示 了 一 个 示例 。 


123 0.08 


486 0.30 
196 = 1000 = 0.12 
729 0.46 
66 0.04 
| 总 访问 计数 
原始 访问 计数 归 一 化 的 访问 计数 























~ 


图 14-5” 归 一 化 向 量 。 在 自我 对 弈 中 ， 跟 踩 每 个 动作 的 访问 计数 。 在 训练 中 ， 必 须 把 问 量 进行 
归 一 化 ， 以 保证 它 的 总 和 为 1 











除 此 之 外 ， 网 络 的 训练 过 程 与 第 12 章 的 演员 -评价 网 络 很 相似 。 代 
人 码 清单 14-13 展 示 了 它 的 实现 。 





代码 清单 14-13 ”训练 综合 网 络 





class ZeroAgent(Agent ) : 


def train(self, experience, learning rate, batch size): 
第 16 章 对 learning_rate 和 batch_size 的 讨论 
num examples = experience.states.shape[6] 





model input = experience.states 


visit sums = np.sum( <--- 将 访问 计数 归 一 化 。 当 用 参数 axis=1 来 调用 n 
p.sum 时 ， 它 会 将 矩阵 的 每 一 行 加 起 来 。 调 用 reshape 会 把 这 些 总 和 重新 组 织 到 对 应 的 行 中 。 
接着 把 原始 的 计数 除 以 它们 的 和 

experience.visit counts, axis=1).reshapel 
(num_examples, 1)) 

action target = experience.visit counts / visit sums 

value target = experience.rewards 



































self.model.compilel( 
SGD(lr=learning_rate), 
loss=['categorical crossentropy', 'mse']) 
self.model .fit( 
model input, [action target, value target], 
batch size=batch size) 








强化 学 习 的 总 体 流 程 和 第 9 章 至 第 12 章 所 学 的 基本 相同 。 





(1) 生成 一 大 批 自 我 对 穿 棋局 
(2) 用 经 验 数据 训练 模型 。 
(3) 将 更 新 的 模型 与 之 前 版 本 进行 对 弃 ， 以 测试 其 改进 程度 。 


(4) 如 果 新 版 本 明显 更 强 ， 就 切换 到 新 版 本 。 





(5) 如 果 新 版 本 并 没有 更 强 ， 就 生成 更 多 的 目 我 对 弈 棋局 ， 重 新 
尝试 训练 。 





(6) 将 上 述 过 程 重复 尽 可 能 多 的 次 数 。 


代码 清单 14-14 展 示 了 运行 上 述 过 程 的 一 次 循环 。 友 情 提 示 : 要 想 
从 零 开 始 构建 一 个 强 围棋 AI， 需 要 大 量 的 目 我 对 春 棋 局 数据 。AlphaGo 
Zero 的 确 达 到 了 超越 人 类 的 水 准 ， 但 它 是 经过 了 500 万 局 目 我 对 春 才 做 
到 的 。 








代码 清单 14-14 ”强化 学 习 流 程 中 的 一 次 循环 








board size = 9 
encoder = zero.ZeroEncoder(board size) 


board input = Input(shape=encoder.shape(), name="'board input') 
pb = board input 
for i in range(4): <--- 构建 一 个 拥有 4 层 卷 积 层 的 网 络 。 要 构建 一 个 强大 的 机 器 
人 ， 可 以 添加 更 多 层 
pb = Conv2D(64，(3，3)， 

padding= "same '， 

data_format=' channels first ' ， 

activation='relu' )(pb) 


























policy_conv = \、 *--- 把 动作 输出 添加 到 网 络 中 
Conv2D(2，(1，1)， 
data_format=' channels first ' ， 
activation='relu' )(pb) 
policy flat = Flatten()(policy_conv) 
policy output = \ 
Dense(encoder.num moves(), activation="'softmax' )( 
policy flat) 


UD 





value_conv = \ <--- ”把 价值 输出 添加 到 网 络 
Conv2D(1, (1, 1), 
data format="'channels first"', 
activation='relu' )(pb) 
value flat = Flatten()(value conv) 
value hidden = Dense(256, activation="'relu')(value flat) 
value output = Dense(1, activation="'tanh')(value hidden) 











model = Model( 
inputs=[board input]， 
outputs=[policy_output，value_output]) 


black_agent = zero.ZeroAgent( 
model，encoder，rounds_per_move=16，c=2.6) <--- 为 了 让 演示 运行 地 更 迅 
速 ， 每 一 个 动作 只 运行 19 轮 推演 。 真 实 训练 需要 更 多 的 轮 次 ，AlphaGo zero 用 的 是 1 666 轮 
white agent = zero.ZeroAgent( 
model, encoder, rounds per move=106,， c=2.0) 
cl1 = zero.ZeroExperienceCollector() 
Cc2 = zero.ZeroExperienceCollector() 
black agent.set collector(c1) 
white agent.set collector(c2) 










































































for i in range(5): ”<--- 在 训练 之 前 ， 先 模拟 5 局 比赛 。 在 真实 的 训练 中 ， 需 要 
大 的 批 次 〔 数 以 生计) 


simulate game(board size, black agent, cl, white agent, c2) 








exp = zero.combine experience([c1, c2]) 
black_agent.train(exp，68.01，2648) 





14.4 用 狄 利 元 雷 噪 声 改 进 探索 


目 我 对 弈 强化 学 习 本 质 上 是 一 个 随机 过 程 。 机 器 人 可 能 一 不 小心 融 
肚 往 奇 怪 的 方向 ， 在 训练 早期 尤为 如 此 。 为 了 避免 机 峰 人 在 训练 中 陷入 


上 某 个 很 坏 的 动作 ， 它 束 还 有 机 会 摆脱 现状 并 学 到 更 好 的 动作 。 在 本 节 
中 我 们 会 学 习 AlphaGo Zero 所 使 用 的 一 个 确保 探索 广度 的 技巧 。 





在 前 面 的 章节 中 ， 我 们 采用 了 几 个 不 同 的 技术 来 增加 机 器 人 的 选择 
多 样 性 。 例 如 ， 在 第 9 章 中 我 们 对 机 器 人 的 策略 输出 进行 随机 抽样 ; 在 
第 11 章 中 我 们 使 用 了 es 贪 柳 策 略 ， 即 在 所 有 时 间 的 部 分 中 ， 机 器 人 会 完 
全 忽略 它 的 模型 输出 ， 改 而 选择 一 个 完全 随机 的 动作 。 这 两 个 例子 中 ， 
我 们 都 在 机 器 人 决策 时 增加 了 随机 性 因 系 。AlphaGo Zero 采 用 的 方法 则 
略 有 不 同 ， 它 在 更 早 的 时 机 就 引入 了 随机 性 : AlphaGo Zero 把 随机 性 融 
入 搜索 过 程 中 。 


想象 一 下 ， 在 每 一 回合 中 ， 我 们 随机 挑选 几 个 动作 ， 人 为 地 增 大 它 
们 的 先 验 概 率 值 。 在 搜索 过 程 早 期 ， 先 验 概 率 负责 控制 哪些 分 文 获得 探 
索 的 机 会 ， 所 以 这 些 动作 将 得 到 额外 的 访问 次 数 。 如 果 之 后 发 现 它 们 实 
际 上 不 是 好 动作 ， 搜 索 会 迅速 迁移 到 其 他 分 支 ， 所 以 这 么 做 没有 什么 坏 
处 。 但 这 样 能 够 保证 每 个 动作 都 能 偶尔 获得 几 次 访问 ， 这 样 搜索 过 程 束 
TT 





AlphaGo Zero 实 现 类 似 效 果 的 办 法 ， 是 在 每 棵 搜索 树 根 节 点 的 先 验 
概率 上 添加 噪声 ， 即 很 小 的 随机 数 。 从 一 个 狄 利克 雷 分 布 中 抽取 噪声 可 
以 得 到 与 上 一 段 相 同 的 效果 : 茶几 个 动作 得 到 了 人 为 增强 ， 而 其 他 动作 
则 不 受 任 何 影 响 。 我 们 会 在 本 节 中 解释 狄 利克 雷 分 布 的 特征 ， 并 展示 如 
何 用 NumPy 生 成 狄 利 元 雷 噪声 。 





本 书 通 篇 都 使 用 概率 分 布 来 代表 游戏 动作 。 从 分 布 中 抽样 时 ， 会 得 
到 其 中 一 个 特定 的 动作 。 而 狄 利克 雷 分 布 是 一 个 概率 分 布 的 概率 分 布 : 
从 狄 利克 雷 分 布 中 进行 抽样 时 会 得 到 男 一 个 概率 分 布 。NumpPy 略 
数 np.random.dirichlet 可 以 从 一 个 狄 利克 雷 分 布 中 生成 采样 。 它 接 
收 一 个 向 量 参数 ， 并 返回 一 个 相同 维度 的 同 量 。 代 码 清单 14-15 展 示 了 
几 个 示例 抽样 ， 结 果 是 一 个 同 量 ， 而 且 它 的 元 素 值 的 和 总 是 1， 也 就 是 
说 ， 结 果 本 映 也 是 一 个 有 效 的 概率 分 布 。 











代码 清单 14-15 ”利用 np.random.dirichlet 来 从 一 个 狄 利 克 雷 分 布 中 抽样 








>>> import numpy as np 

>>> np.random.dirichlet([1, 1, 1]) 
array([6.1146, 6.2526, 0.6328]) 
>>> np.random.dirichlet([1, 1, 1]) 


array([6.1671, 6.5378, 0.2951]) 
>>> np.random.dirichlet([1, 1, 1]) 
array([6.4698, 0.1587, 0.4315]) 





我 们 可 以 用 一 个 浓度 (concentration) 参数 来 调控 狄 利克 雷 分 布 的 
输出 。 这 个 参数 通常 记 为 a。 当 a 接近 0 时 ， 狄 利克 雷 分 布 会 生成 “波浪 起 
伏 ” 的 向量 : 它 的 大 部 分 元 素 值 都 接近 于 0， 而 少数 几 个 元 素 值 比较 大 。 
当 aw 值 较 大 时 ， 抽 样 结果 则 会 显得 比较 “平滑 ”: 它 的 各 个 元 素 值 相互 之 
间 比 较 接 近 。 代 码 清单 14-16 展 示 了 改变 concentration 参 数 的 效果 。 











代码 清单 14-16 “ 当 a 接 近 0 时 ， 从 狄 利克 雷 分 布 中 抽样 











>>> import numpy as np 











>>> np.random.dirichlet([6.1，6.1，6.1，6.1]) <--- ”从 一 个 浓度 参数 很 小 的 
狄 利 克 雷 分 布 中 抽样 。 结 果 显 得 “波浪 起 伏 ”:， 大 部 分 值 都 集中 在 其 中 一 两 个 元 素 上 
array([6.  , 0.644 ,0.7196, 60.2364]) 


>>> np.random.dirichlet([6.1, 6.1, 86.1, 060.1]) 
array([6.6015, 0.6028, 0.9957, 96. ]) 


>>> np.random.dirichlet([6.1，6.1，6.1，6.1]) 
array([68. ，6.9236，6.6692，6.67631]) 


>>> np.random.dirichlet([16，16，16，161]) <--- ”从 一 个 浓度 参数 很 大 的 狄 利 
克 雷 分 布 中 抽样 。 在 每 个 结果 中 ， 数 值 平均 地 分 布 到 疝 量 的 全 部 元 素 中 


























array([6.3479, 60.1569, 6.31069, 0.1842]) 
>>> np.random.dirichlet([16, 106, 106, 106]) 
array([6.3731，6.2648，6.6715，6.35671]) 
>>> np.random.dirichlet([16，16，16，16]) 
array([86.2119，6.2174，6.3642，6.26651]) 





些 示例 可 以 为 修改 先 验 概率 提供 一 个 “处 方 ”， 选择 小 的 a 值 ， 
得 到 一 个 少数 动作 有 高 概率 且 其 余 动 作 概率 接近 于 0 的 分 布 。 ee 
可 以 用 真实 的 先 验 概 率 与 这 个 狄 利克 雷 品 声 进 行 加 权 平 均 。AlphaGo 
Zero 采 用 的 浓度 参数 值 为 0.03。 








14.5 ”处 理 超 深度 神经 网 络 的 相关 最 新 技术 





神经 网 络 设计 是 一 个 热门 研究 领域 。 在 越 来 越 深 的 网 络 中 ， 如 何 让 
训练 保持 稳定 是 一 直 伴 随 的 课题 。AlphaGo Zero 采 用 了 几 种 前 沿 技术 ， 
并 经 迅速 成 为 业界 标准 。 它 们 的 详细 内 容 超出 了 本 书 的 范围 ， 但 是 我 们 
可 以 在 这 里 概要 介绍 一 下 。 


14.5.1 批量 归 一 化 


深度 神经 网 络 的 基本 思路 ， 是 从 原始 数据 开始 ， 每 一 层 都 能 够 学 会 
关于 它 的 更 高 阶 的 抽象 表示 。 这 些 表示 具体 是 什么 ? 换 句 话说 ， 原 始 数 
据 的 某 种 有 意义 的 属性 ， 应 当 会 在 层 中 茶 个 特定 神经 元 的 激活 中 表示 为 
一 个 特定 数值 。 但 是 实际 数值 的 映射 则 很 难 把 握 。 例 如 ， 如 果 将 一 层 中 











的 所 有 激活 输出 乘 以 2 并 不 会 丢失 任何 信息 : 因为 我 们 只 是 改变 了 缩放 
规模 而 已 。 理 论 上 上， 这样 的 变换 并 不 会 影响 网 络 的 学 习 能 


但 是 激活 输出 的 绝对 数值 可 能 会 影响 实际 训练 的 性 能 。 批 量 归 一 化 
《batch normalization ) 的 理念 是 对 每 一 层 的 激活 输出 进行 偏 移 
Cshift) 调整 ， 让 它们 的 值 围 绕 0 分 布 ， 并 对 它们 的 数值 进行 缩放 
Cscale) ， 使 得 方差 保持 为 1。 在 训练 开始 阶段 ， 我 们 并 不 知道 激活 输 
出 是 什么 ， 不 过 批量 归 一 化 提供 了 一 个 能 够 在 训练 过 程 中 学 习 到 合适 的 
偏 移 与 缩放 值 的 方案 ， 归 一 化 变换 会 在 训练 中 随 着 它 的 输入 做 出 调整 。 








那么 批量 归 一 化 是 如 何 改进 训练 的 呢 ? 这 一 点 仍然 是 研究 界 的 开放 
问题 。 最 初 研究 者 开发 出 批量 归 一 化 技术 是 为 了 减少 协 变 量 偏 移 
《covariate shift) 。 在 训练 中 ， 任 何 层 的 激活 输出 都 有 漂移 出 正轨 的 倾 
问 。 批 量 归 一 化 可 以 纠正 这 种 漂移 ， 减 少 后 面 各 层 的 学 习 负 担 。 但 是 最 
新 研究 表明 ， 协 变量 偏 移 可 能 并 不 如 原先 想 的 那么 重要 。 相 反 地 ， 批 量 
归 一 化 的 价值 可 能 在 于 能 够 让 损失 函数 变 得 更 加 平滑 。 





虽然 研究 者 们 仍然 在 研究 批量 归 一 化 为 什么 有 效 ， 但 是 它 确实 有 效 
的 判定 已 经 基本 有 定论 了 。Keras 提 供 了 一 个 BatchNormalization 
层 ， 可 以 添加 到 网 络 中 。 代 码 清单 14-17 展 示 了 一 个 在 Keras 中 为 卷 积 层 
添加 批量 归 一 化 的 示例 。 








代码 清单 14-17 为 Keras 网 络 添加 批量 归 一 化 











from keras.models import Sequential 
from keras.layers import Activation, BatchNormalization, Conv2D 


model = Sequential() 


model.add(Conv2D(64, (3, 3), data format='channels _ first ')) 
model.add(BatchNormalization(axis=1)) <--- axis 值 应 当 与 卷 积 层 的 data_for 
mat 值 相 匹 配 。 对 于 channels_first 类 型 ， 应 当 使 用 axis=1《〈 第 一 个 轴 ) 。 对 于 channels_ 





























1ast 类 型 ， 应 当 使 用 axis=-1 (最 后 一 个 轴 
model.add(Activation('relu')) <--- 上 归 一 化 发 生 在 卷 积 层 与 relu 激 活 层 之 间 


AL 











14.5.2 ” 残 关 网络 


想象 一 下 ， 假 设 我 们 已 经 成 功 地 训练 出 一 个 内 含 3 个 隐藏 层 的 神经 
网 络 ， 那 么 给 它 添加 第 4 层 会 有 什么 影响 ? 理论 上 ， 这 样 做 应 该 能 够 增 
强 网 络 的 能 力 。 在 最 坏 的 情况 下 ， 训 练 这 个 4 层 网 络 时 前 3 层 应 当 能 够 和 
3 层 网 络 学 到 一 样 的 知识 ， 而 第 4 层 完 全 不 理 奴 经 过 它 的 数值 。 你 可 能 会 
希望 它 能 够 学 会 更 多 东西 ， 而 不 认为 它 会 学 得 更 少 。 就 算 做 不 到 这 一 
点 ， 更 深 的 网 络 也 应 当 能 够 至 少 做 到 过 拟 合 《“ 即 记 住 训 练 集中 存在 但 新 
样 例 中 并 不 存在 的 茶 些 特性 ) 。 





但 现实 中 并 不 总 是 这 样 。 在 尝试 训练 一 个 4 层 网 络 时 ， 它 会 比 3 层 网 
络 有 更 多 种 可 能 的 数据 组 织 方式 。 有 时 候 ， 由 于 随机 梯度 下 降 法 在 复杂 
的 损失 曲面 上 的 某 些 奇怪 特性 ， 我 们 可 能 会 友 现 ， 虽 然 增加 了 一 层 ， 但 
别 说 性 能 变 得 更 好 ， 它 甚至 连 过 拟 合 都 做 不 到 。 残 差 网 络 (residual 
network ) 就 是 用 来 简化 新 增 的 层 想 要 学 习 的 目标 。 如 果 3 层 网 络 能 够 较 
好 地 完成 一 个 问题 的 学 习 ， 就 可 以 强制 要 求 第 4 层 去 学 习 前 3 层 所 学 到 的 
东西 与 目标 之 间 的 差距 。【〈 这 个 差距 称 为 残 甜 ， 因 此 这 个 网 络 叫 残 差 网 
络 ) 。 











要 实现 残 差 网 络 ， 需 要 把 新 增 层 的 输入 与 它 的 输出 相 加 ， 如 图 14-6 
所 示 。 从 前 面 的 层 到 相 加 层 的 连接 称 为 跳跃 连接 (skip connection)。 





一 般 来 说 ， 残 差 网 络 往往 分 成 多 个 小 块 来 组 织 ， 每 一 块 有 2 ~ 3 层 ， 并 且 
有 一 个 跳跃 连接 与 它们 并 行 。 然 后 我 们 就 可 以 根据 需求 堆 登 很 多 残 差 块 
Ts 






残 关 块 跳跃 连接 








图 14-6 ”一 个 残 差 块 。 将 下 方 两 个 内 部 新 增 层 的 输出 与 上 方 之 前 的 层 的 输出 相 加 。 这 么 做 的 效 
果 是 ， 内 部 层 可 以 学 习 到 训练 目标 与 之 前 层 所 学 到 的 内 容 之 间 的 差距 (或 者 叫 残 差 ) 








14.6 ”探索 额外 资源 


如 果 读 者 有 兴趣 尝试 更 多 AlphaGo Zero 风 格 的 机 器 人 ， 了 网 上 有 很 多 
源 于 AlphaGo Zero 原 始 论文 的 开源 项 目 。 如 果 想 要 一 个 超越 人 类 水 准 的 
围棋 AI， 无 论 是 与 之 对 奔 ， 还 是 学 习 源 代码 ， 我 们 都 会 发 现 资源 极 其 丰 





也 


。 Leela Zero 是 AlphaGo Zero 风 格 机 器 人 的 一 个 开源 实现 。 它 的 自我 对 
弈 过 程 是 分 布 式 的 : 如 果 有 空余 的 CPU 周期 可 用 ， 束 可 以 生成 自我 
对 五 棋局 并 上 传 到 网 站 上 以 便 训练 。 在 本 书写 到 这 里 的 时 候 ， 社 区 
己 经 贡献 了 超过 800 万 局 棋局 ， 而 Leela Zero 已 经 强大 到 足以 战胜 职 








业 围 棋 选 手 了 。 

Minigo 是 另 一 个 开源 实现 ， 它 使 用 Python 编号 ， 基 于 TensorFlow 库 
实现 。 它 可 以 与 谷歌 云 平 台 (Google Cloud Platform ) 完全 集成 ， 
因此 可 以 用 谷歌 的 公用 云 来 运行 实验 。 

Facebook AI 研究 团队 在 他 们 的 ELF 强 化 学 习 平 台 之 上 实现 了 
AlphaGo Zero 算 法 。 他 们 的 成 果 ，ELF OpenGo， 现 在 已 经 免费 开 
放 ， 并 且 是 当今 世界 上 最 强大 的 围棋 AI 之 一 。 

腾讯 也 实现 并 训练 了 一 个 AlphaGo Zero 风 格 的 机 器 人 ， 发 布 为 
PhoenixGo。 这 个 机 器 人 在 野 狐 围棋 (Fox Go) 服务 器 上 所 用 的 账 
户 叫 BensonDarrtH， 并 已 经 在 那里 战胜 了 很 多 世界 顶尖 棋 手 。 

如 果 读 者 并 不 喜欢 围棋 ， 那 么 也 可 以 参考 国际 象棋 。Leela Chess 
Zero 是 Leela Zero 的 一 个 分 文 ， 从 围棋 移植 到 了 国际 象棋 。 它 已 经 
达到 了 人 类 大 师 的 级 别 ， 而 它 展现 出 的 新 奇 而 激动 人 心 的 手法 ， 已 
经 说 得 了 广大 国际 象棋 “粉丝 ”的 交口 称赞 。 





14.7 结语 


至 此 ， 对 现代 围棋 AI 背后 的 前 沿 AI 技 术 的 介绍 就 要 告 一 段落 了 。 我 
们 鼓励 读者 亲自 展开 试验 : 无 论 是 尝试 构建 属于 自己 的 围棋 机 器 人 ， 还 
是 尝试 把 这 些 现代 技术 应 用 到 其 他 游戏 。 











但 请 不 要 局 限于 游戏 的 藩 篇 之 中 。 如 果 读 者 现在 去 了 解 机 器 学 习 的 
最 新 应 用 ， 就 会 发 现 脑海 中 已 经 有 了 一 个 思维 框架 ， 能 够 帮助 自己 理解 
它 在 讲 什么 。 读 者 应 当 思 考 下 列 问题 : 





。 它 的 模型 是 什么 ? 神经 网 络 的 结构 是 什么 ? 
。 它 的 损失 函数 是 什么 ? 训练 目标 呢 ? 
。 它 的 训练 流程 是 什么 样 的? 


。 输入 和 输出 是 如 何 编码 的 ? 
。 这 个 模型 如 何 适 配 传统 算法 ， 或 者 实用 软件 应 用 ? 





我 们 希望 本 书 能 够 激励 读者 去 尝试 自己 的 深度 学 习 实 验 ， 无 论 是 游 
戏 领域 ， 还 是 其 他 领域 。 


14.8 ”小 结 


AlphaGo Zero 只 用 了 一 个 双 输 出 神经 网 络 。 一 个 代表 哪些 动作 更 重 
要 ， 另 一 个 表示 哪 一 方 占 优 。 

AlphaGo Zero 的 树 搜索 算法 与 蒙特 卡 洛 树 搜 索 类 似 ， 但 还 有 两 个 主 
要 区 别 。 其 一 ， 它 在 评估 棋局 时 不 再 用 随机 棋局 去 推演 ， 而 是 只 依 
赖 神经 网 络 ， 其 二 ， 它 使 用 神经 网 络 来 指导 搜索 并 扩展 新 的 分 文 。 
AlphaGo Zero 神 经 网 络 的 训练 目标 是 搜索 过 程 中 特定 动作 的 访问 次 
数 。 这 样 训练 出 来 的 神经 网 络 并 不 直接 选择 动作 ， 而 是 用 于 强化 树 
搜索 。 

狄 利克 雷 分 布 是 一 个 概率 分 布 的 概率 分 布 。 它 的 浓度 参数 可 以 调控 
结果 概率 分 布 的 “起 伏 ” 程 度 。AlphaGo Zero 使 用 狄 利克 雷 噪声 来 给 
它 的 搜索 过 程 添加 随机 性 ， 以 确保 所 有 的 动作 都 能 被 偶尔 探索 到 。 
批量 归 一 化 和 残 差 网 络 是 两 种 可 以 帮助 我 们 训练 超 深 度 神经 网 络 的 
现代 技术 。 








[1] 中 文 昵称 叫 “ 人 金毛”"。 一 一 详 者 注 


附录 A 数学 基础 





机 器 学 习 离 不 开 数 学 。 特 别 是 线性 代数 和 微 积 分 是 必 不 可 少 的 。 本 
附录 的 目的 是 提供 足够 的 数学 背景 ， 帮 助 读者 理解 本 书 中 的 代码 示例 。 
我 们 没有 足够 的 空间 来 涵盖 这 些 规模 已 大 的 话题 ， 如 有 果 读 者 想 更 深入 地 
了 解 这 几 个 诬 题 ， 我 们 在 后 面 提供 了 一 些 扩展 阅读 建议 。 


如 果 读 者 已 经 熟人 悉 高 级 机 器 学 习 的 相关 技术 ， 可 以 跳 过 本 附录 。 


扩展 阅读 


本 书 篇 幅 仅 够 介绍 少数 几 个 数学 基础 。 如 果 读 者 对 机 器 学 习 的 数学 
基础 有 兴趣 ， 想 了 解 更 多 相关 信息 ， 我 们 推荐 如 下 资料 。 


。 对 于 线性 代数 的 完整 介绍 ， 建 议 参 考 Sheldon Axler 的 Linear Algebra 
Done Right [Y] (Springer, 2015) 。 

。 关于 微 积 分 的 完整 实用 指南 ， 包括 矢量 微 积 分 ， 推 荐 James Stewart 
的 Calculus: Early Transcendentals (Cengage Learning, 2015) 。 

。 如 果真 的 想 要 理解 微 积 分 底层 原理 的 数学 理论 ， 那 么 很 难 找到 能 超 
越 Walter Rudin 的 经 典 之 作 Principles of Mathematical AnalysisD] 
(McGraw Hill, 1976) 。 


A.1 向 量 、 和 矩阵 和 其 他 :线性 代数 介绍 


线性 代数 提供 了 处 理 数 组 类 型 数据 的 工具 ， 我 们 称 为 问 量 、 和 矩阵 和 
张 量 。 在 Python 中 ， 我 们 可 以 用 NumPy 数 组 类 型 表示 这 几 个 对 象 。 


线性 代数 是 机 器 学 习 的 基础 。 本 节 仅 介绍 最 基本 的 操作 ， 重 点 介绍 
如 何在 NumPy 中 实现 它们 。 





A.1.1 问 量 : 一 维 数据 


问 量 是 由 多 个 数组 成 的 一 维 数组 。 数 组 的 大 小 即 向 量 的 维度 。 在 
Python 代码 中 ， 我 们 可 以 使 用 NumPy 数 组 来 表示 回 量 。 


MPA) 2 
壮 瓦 





这 并 不 是 向 量 真正 的 数学 定义 ， 但 就 本 书 而 言 ， 这 个 定义 已 经 足够 


我 们 可 以 使 用 np .array 函 数 将 一 列 数 转换 为 NumPy 数 组 。 可 以 
用 shape 属 性 来 检查 癌 量 的 维度 : 








>>> import numpy as np 


>>> x = np.array([1，2]) 
>>> X 


array([1，2]) 

>>> x.shape 

(2,) 

>>> y = np.array([3, 3.1, 3.2, 3.3]) 


>>> y 
array([3. ，3.1，3.2，3.3]) 
>>> y.shape 


(4,) 





注意 ，shape 总 是 返回 一 个 元 组 。 这 是 因为 数组 可 以 是 多 维 的 ， 我 
们 将 在 下 一 节 看 到 。 


我 们 可 以 访问 辐 量 的 单个 元 素 ， 方 式 与 Python 数组 一 样 : 


>>> x = np.array([5, 6, 7, 8]) 
>>> x[8] 

5 

>>> x[1] 

6 





向 量 支持 一 些 基 本 的 代数 运算 。 可 以 将 两 个 维度 相同 的 向 量 相 加 ， 
结果 是 一 个 维度 与 它们 相同 的 新 向 量 。 和 向 量 的 每 个 元 素 是 两 个 向 量 中 
对 应 元 素 的 和 : 





np.array([1，2，3，4]) 
np.array([5, 6, 7, 8]) 


>>> x 
>>> y 
>>> X + y 
array([ 6, 8, 106, 12]) 





同样 ， 也 可 以 使 用 * 运 算 符 将 两 个 癌 量 元 和 素 相 乘 。《〈 这 里 ， 相 乘 意 
味 痢 每 个 辣 量 对 应 的 元 素 相 乘 ) 





>>> x = np.array([1, 2, 3, 4]) 
>>> y = np.array([5, 6, 7, 8]) 
>>> x 





y 
array([ 5, 12, 21, 32]) 


逐个 元 素 的 同 量 乘 积 也 称 为 哈达 玛 积 (Hadamard product) 。 


也 可 以 将 向量 与 单个 浮 扣 数 (或 者 标量 ) 相 乘 。 在 这 种 情况 下 ， 把 
问 量 中 的 每 个 元 素 值 乘 以 标量 : 


>>> x = np.array([1, 2, 3, 4]) 
>>> 0.5 * x 





array([6.5, 1. ，1.5，2. ]) 





问 量 还 支持 第 三 种 乘法 ， 即 点 积 或 内 积 。 要 计算 点 积 ， 需 要 将 每 两 
个 对 应 元 素 相 乘 并 对 各 个 乘积 求 和 。 因 此 两 个 向 量 的 点 积 是 一 个 浮 点 
数 。NumPy 函 数 np .dot 用 于 计算 点 积 。 在 Python 3.5 及 更 高 版 本 中 ，@ 
运算 符 也 有 同样 的 功能 。《〈 在 本 书 中 ， 我 们 用 np.dot。) 








>>> x = np.array([1, 2, 3, 4]) 
>>> y = np.array([4, 5, 6, 7]) 
>>> np.dot(x, y) 





A.1.2 矩阵: 二 维 数据 


多 个 数组 成 的 二 维 数组 称 为 矩阵 。 和 一 维 向 量 一 样 ， 我 们 也 可 以 使 
用 NumPy 数 组 来 表示 矩阵。 在 这 种 情况 下 ， 如 果 将 列表 的 列表 传递 给 
np.array 岗 数 ， 就 会 得 到 一 个 二 维和 矩阵 : 





>>> x = np.array([ 


array([[1，2，3]， 
[4，5，6]]) 

>>> x.shape 

(2，3) 





注意 ， 和 矩阵 的 形状 shape 是 一 个 双 元 素 元 组 : 第 一 个 元 素 是 行 数 ， 
第 二 个 元 素 是 列 数 。 我 们 可 以 使 用 双 下 标 法 来 访问 矩阵 的 单个 元 素 : 第 
一 个 下 标 是 行 数 ， 第 二 个 下 标 是 列 数 。 另 外 ，NumPy 也 允许 用 [row， 
column] 的 格式 传 入 索引 。 两 者 是 等 价 的 : 





>>> x = np.array([ 
[1，2，3]， 
[4, 5, 6] 

]) 

>>> x[8][1] 

2 

>>> X[6，1] 

2 

>>> X[1][6] 

4 


>>> X[1，6] 
4 





我 们 也 可 以 从 矩阵 中 提出 一 行 ， 得 到 一 个 向 量 : 


>>> x = np.array([ 


array([1，2，3]) 
>>> y.shape 


(3,) 








如 末 想 提出 一 列 ， 可 以 使 用 看 起 来 有 些 奇 怪 的 符 写 [:，n]。 挺 难 
理解 吧 ? 也 许可 以 把 :想象 成 Python 的 列表 切片 运算 符 ， 这 样 [:，n] 的 





意思 就 是 “给 我 所 有 的 行 ， 但 每 行 只 要 第 n 列 ”， 下 面 是 一 个 示例 : 


>>> Z = X[:，1] 
>>> Zz 
array([2, 5]) 





和 向 量 一 样 ， 和 矩阵 支持 加 法 、 逐 个 元 素 乘法 和 标量 习 法 : 


>>> x = np.array([ 


array([[ 4, 6, 8], 
[16，12，14]]) 
>>> X  y 
array([[ 3，8，15]， 
[24, 35, 48]]) 
>>> 0.5 * x 
array([[8.5, 1. ， 1.5], 
[2. ，2.5，3. ]]) 





A.1.3 三 阶 张 量 


围棋 是 在 网 格 状 棋盘 上 进行 的 ， 象 棋 、 跳 棋 以 及 其 他 各 种 经 典 棋 盘 
游戏 也 是 如 此 。 网 格 上 的 任何 点 ， 痢 可 以 落下 不 同类 型 的 棋子 。 那 么 应 
该 如 何 用 数学 对 象 来 表示 棋盘 上 的 内 容 呢 ? 一 种 解决 方案 是 将 棋盘 表示 
为 一 系列 窃 阵 ， 其 中 每 个 矩阵 的 太 二 与 棋盘 矿 寸 相同 。 





这 些 矩 阵 中 ， 每 一 个 单独 矩阵 称 为 一 层 〈plane) ， 或 者 一 个 通 
(channel) 。 每 个 通道 可 以 表示 一 WA 在 围棋 中 ， 我 们 
可 以 用 两 个 通道 ， 一 个 通道 表示 黑子 ， 个 通道 表示 日 子 ， 图 A-1 展 
的 通道 表示 和 革 ， 另 一 个 通道 表 
示 象 ， 再 一 个 通道 表示 马 ， 如 此 等 等 。 我 们 还 可 以 用 一 个 三 维 的 数组 来 
表示 整个 矩阵 系列 ， 称 为 三 阶 张 量 (rank 3 tensor) 。 


每 个 









































图 A-1 使 用 两 个 通道 的 张 量 来 表示 围棋 棋盘 。 示 例 中 是 一 个 5x5 的 棋盘 。 我 们 用 一 个 通道 表示 
黑子 ， 另 一 个 通道 表示 白 子 。 因 此 ， 我 们 使 用 2x5x5 的 张 量 来 表示 围棋 棋盘 
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三 阶 张 量 的 妨 一 种 常见 应 用 是 图 像 数 据 。 假 设 我 们 想 要 用 NumPy 数 
组 来 表示 128 像 素 x64 像 素 的 图 像 。 在 这 种 情况 下 ， 可 以 先 从 一 个 与 图 像 
像素 一 一 对 应 的 网 格 开始 。 在 计算 机 图 形 学 中 ， 颜 色 第 第 被 分 为 红 、 
绿 、 蓝 三 原色 的 组 合 。 因 此 ， 可 以 使 用 3x128x64 的 张 量 表示 该 图 像 : 一 
个 红色 通道 、 一 个 绿色 通道 和 一 个 赣 色 通道 。 


与 向 量 、 甜 阵 一 样 ， 可 以 使 用 np.array 来 构造 张 量 。 它 的 形状 是 
一 个 包含 3 个 元 素 的 元 组 。 我们 也 可 以 使 用 下 标 来 获取 各 个 通道 ; 








>>> x = np.array([ 
[[1, 2, 3], 
[2, 3 
[[3, 4, 5], 
[4, 5 


] ) 

>>> x.shape 

(2，2，3) 

>>> X[6] 

array([[1，2，3]， 
[2, 3, 4]]) 

>>> x[1] 

array([[3, 4, 5], 
[4, 5, 6]]) 





与 向 量 和 和 窍 阵 一 样 ， 张 量 支 持 加 法 、 逐 个 元 素 乘 法 和 标量 乘法 。 


如 果 有 一 个 三 通道 的 8x8 网 格 ， 可 以 用 3x8x8 张 量 或 8x8x3 张 量 来 表 
示 它 。 这 两 种 表示 方式 的 唯一 区 别 在 于 进行 索引 的 方式 。 使 用 库 函 数 处 
理 张 量 时 ， 必 须 确 保函 数 知道 所 选 的 索引 方式 。 本 书 中 用 于 构建 神经 网 
络 的 Keras 库 ， 将 这 两 个 选项 分 别称 为 channels_first《〈 即 通道 数 在 
前 ) 和 channels_1last〈 即 通道 数 在 后 ) 。 在 大 多 数 情况 下 ， 选 择 哪 一 
种 格式 并 不 重要 : 只 需要 选择 一 种 ， 并 一 直 坚 持 即 可 。 在 本 书 中 ， 我 们 
使 用 channe1ls _ first 格式 。 











Wi = 
壮 瓦 


如 果 非 要 找 一 个 选择 方式 的 动机 的 话 ， 那 么 某 些 型 号 的 NVIDIA 
GPU 对 channels_first 格 式 的 数据 有 特别 优化 。 


A.1.4 四 阶 张 量 











在 本 书 的 许多 地 方 ， 我 们 使 用 三 阶 张 量 来 表示 棋盘 。 为 了 提高 效 
率 ， 你 可 能 想 要 把 多 个 棋盘 传递 给 东 个 图 数 。 一 种 解决 方案 是 将 棋盘 张 
量 打包 成 一 个 四 维 NumPy 数 组 : 这 正 是 一 个 四 阶 张 量 。 我 们 可 以 将 这 个 
四 维 数 组 视 为 三 阶 张 量 的 列表 ， 其 中 每 个 三 阶 张 量 代 表 一 个 单独 的 棋 


Lo 





矩阵 和 同 量 实际 上 是 张 量 的 特例 : 矩阵 是 二 阶 张 量 ， 疝 量 是 一 阶 张 


量 。 而 零 阶 张 量 就 是 一 个 普通 的 数字 。 





本 书 中 我 们 看 到 的 最 高 阶 张 量 是 四 阶 张 量 ， 但 其 实 NumPy 可 以 表示 
任意 阶 的 张 量 。 高 阶 张 量 很 难 形象 化 地 理解 ， 但 它们 的 代数 逻辑 是 相同 
的 。 


A.2 五 分 钟 了 解 微 积分 ， 导 数 和 寻找 极 大 值 


在 微 积 分 中 ， 函 数 的 变化 率 称 为 导数 〈derivative ) 。 表 A-1 列 出 了 
一 些 真 实 世界 中 的 例子 。 


表 A-1 导数 的 示例 














你 有 多 少 客户 你 新 增 《〈 或 丢失 ) 了 多 少 客户 








导数 不 是 一 个 固定 的 数字 ， 它 本 身 也 是 一 个 函数 ， 会 随 独 时 间或 衬 
间 变 化 。 在 一 趟 汽车 旅行 中 ， 不 同 的 时 间 的 行驶 速度 可 能 会 有 所 不 同 ， 
但 是 行驶 速度 始终 与 汽车 所 走 过 的 距离 有 关 。 Ce 
就 可 以 回 过 头 去 观察 旅行 中 的 任何 一 点 的 速度 。 这 就 是 导数 。 








当 函 数 递增 时 ， 其 导数 为 正当 函数 递减 时 ， 其 导数 为 员 。 图 A-2 
说 明了 这 个 概念 。 有 了 这 些 知识 ， 就 可 以 利用 导数 来 寻找 局 部 极 大 值 
(local maximum) 或 局 部 极 小 值 (local minimum) 。 导 数 为 正 的 任何 
地 方 ， 都 可 以 同 右 移动 一 点 ， 并 找到 更 大 的 值 。 如 果 超 过 极 大 值 ， 则 孙 
数 现在 必须 递减 ， 因 此 其 导数 为 负 。 在 这 种 情况 下 ， 就 应 当 要 同 左 移动 
一 点 。 在 局 部 极 大 值 处 ， 导 数 将 精确 为 零 。 找 到 局 部 极 小 值 的 逻辑 是 相 
同 的 ， 只 是 需要 问 相 反 的 方 癌 移动 。 








函数 正在 递增 


函数 正在 递减 











图 A-2 ”函数 及 其 导数 。 当 导数 为 正 时 ， 函 数 递 增 ; 当 导数 为 负 时 ， 函 数 递减 ， 当 导数 精确 为 零 
时 ， 函 数 处 于 局 部 极 小 值 或 极 大 值 。 遵 循 这 个 逻辑 ， 就 可 以 利用 导数 来 寻找 局 部 极 小 值 或 极 大 
值 


























机 器 学 习 中 出 现 的 许多 函数 都 以 高 维 癌 量 作 为 输入 ， 并 计算 单个 数 
字 作 为 输出 。 我 们 可 以 扩展 导数 的 思路 ， 去 为 这 些 函 数 寻找 极 大 值 或 极 
小 值 。 这 些 函 数 的 导数 ， 是 和 它们 的 输入 参数 维度 相同 的 向 量 ， 我 们 称 
为 材 度 (gradient) 。 对 于 梯度 的 每 个 元 素 ， 其 正 负 亏 会 给 出 需要 沿 着 
该 坐标 轴 移 动 的 方向 。 跟 随 梯度 变化 来 找到 一 个 函数 的 极 大 值 的 方法 称 
为 标 度 上 升 法 (gradient ascent) ， 而 寻找 极 小 值 的 方法 称 为 杨 度 下 降 
法 (gradient descent) 。 





在 这 种 情况 下 ， 将 函数 想象 为 等 高 线 曲 面 可 能 会 有 所 帮助 。 在 任何 
时 候 ， 梯 度 都 指 癌 曲面 中 最 陡 的 坡 。 


要 使 用 梯度 上 升 法 寻找 极 大 值 ， 必 须 得 到 函数 导数 的 公式 。 大 多 数 
简单 代数 函数 的 导数 都 已 知 ， 可 以 在 微 积 分 教科 书 中 得 到 。 如 果 复 杂 函 
数 是 通过 许多 简单 函数 链接 在 一 起 的 方式 来 定义 的 ， 则 可 以 使 用 称 为 链 
式 法 则 的 公式 来 计算 这 个 复杂 函数 的 导数 。TensorFlow 和 Theano 这 些 库 
都 文 持 用 链 式 法 则 自动 计算 复杂 函数 的 导数 。 如 果 在 Keras 中 定义 一 个 
复杂 的 函数 ， 就 不 需要 上 自己 计算 梯度 公式 了 : Keras 将 把 工作 交 给 
TensorFlow 或 Theano 来 完成 。 


[1] 中 文 版 书 名 《线性 代数 应 该 这 样 学 》 (人 民 邮 电 出 版 社 ，2009)。 
一 _ 译 者 注 


[2] 中 文 版 书 名 《数学 分 析 原 理 》“〔 机 械 工业 出 版 社 ，2004)〉。 一 一 译 
者 注 


附录 B 反问 传播 算法 


第 5 章 介 绍 了 顺序 神经 网 络 ， 重 点 讨论 了 前 馈 神 经 网 络 。 我 们 简略 
地 讨论 反 同 传播 算法 (backpropagation algorithm ) ， 并 用 它 来 训练 神经 
网 络 。 本 附录 对 如 何 得 出 第 5 章 中 简略 提 到 并 直接 使 用 的 梯度 以 及 参数 
更 新 机 制 ， 会 做 出 更 详细 的 介绍 。 











我 们 首先 为 前 饥 神 经 网 络 推导 反 回 传播 算法 ， 接 着 讨论 如 何 扩展 这 
个 算法 来 适应 更 加 通用 的 顺序 网 络 与 非 顺 序 网 络 。 在 深入 数学 讨论 之 
前 ， 让 我 们 先 定义 好 算法 的 初始 设置 ， 并 介绍 后 面 会 用 到 的 相关 符号 记 
和 





Bl 儿 沾 行 配 记 法 





在 本 节 中 我 们 要 处 理 的 是 拥有 I! 层 的 前 馈 神 经 网 络 。 这 I/ 层 中 每 一 层 
都 有 一 个 sigmoid 激 活 函 数 。 第 i 层 的 权重 记 为 W'， 而 偏差 记 为 b'。 我 们 
用 x 来 表示 一 个 小 批量 的 网 络 输入 数据 ， 其 批 次 尺寸 为 x 用 y 来 表示 网 
络 输出 。 我 们 可 以 认为 x 和 y 都 是 向 量 ， 只 是 所 有 的 操作 都 是 按照 一 个 个 
小 批量 来 批量 进行 的 。 男 外， 我 们 还 要 引入 下 面 几 个 记 法 。 











。 我 们 把 第 i 层 的 激活 输出 记 为 y+1， 即 yi+1 = o(W iyi + b')。 注 意 ，yi1 
同时 也 是 第 it1 层 的 输入 。 

。 我 们 把 第 i 企 稠密 层 的 未 激活 输出 记 为 五 ， 也 就 是 说 ，Z= Wi*yi+ 
bi 


。 有 了 这 两 个 中 间 结 果 的 方便 记 法 ， 我 们 就 可 以 写作 zi = Wi。yi+ 
bi， 而 yi+1 = ol(zi)。 注 意 ， 用 这 个 记 法 ， 也 可 以 把 输出 写作 y = yy， 输 
入 写作 x = 办， 但 是 在 后 面 的 文本 中 我 们 不 会 使 用 这 个 记 法 。 

。 最 后 一 个 记 法 : 我 们 有 时 候 会 把 o(W iyi + bi) 记 作 f i(yi)。 


B.2 前 人 馈 网 络 的 反 疝 传播 算法 


使 用 前 面 定 义 的 记 法 ， 神 经 网 络 的 第 i 层 的 前 向 传递 可 以 写作 : 
vy't! ol(W'vy’ 4 已 y 二 ” BE vy 
对 每 一 层 ， 可 以 递归 地 采用 这 个 定义 ， 将 预测 结果 写成 : 
y=f"0 …” of(z) 

由 于 我 们 从 预测 输出 y 和 标签 计算 损失 函数 Loss， 因 此 损失 函数 也 

可 以 用 相似 的 方式 拆 分 成 : 
Loss{y,9)= Lossof"o :.. 0o fi (ZZ) 

要 计算 上 面 展 示 的 损失 阔 数 的 导数 ， 可 以 巧妙 地 利用 函数 的 链 式 法 
则 ， 它 是 多 元 微 积分 的 基本 法 则 之 一 。 对 上 面 的 公式 直接 应 用 链 式 法 则 
可 以 得 到 : 





dLoss dLoss df”" df dF 
dz df" dfe df! dz. 








现在 可 以 如 下 定义 第 i 层 的 增 量 (A) 。 


dLoss df't! 








df" df 





接着 可 以 用 反 辐 传递 ， 一 种 与 前 面 的 前 向 传递 类 似 的 方式 来 表达 增 
量 ， 即 使 用 下 面 的 关系 : 
dFt+l 
dd 

注意 ， 对 增 量 来 说 ， 由 于 我 们 正 旨 着 相反 的 方 同 计算 ， 因 此 下 标 是 
由 大 到 小 递减 的 。 从 形式 上 看 ， 反 辐 传 递 的 计算 ， 其 结构 和 简单 的 前 同 
传递 是 一 致 的 。 我 们 现在 需要 显 式 地 计算 相关 的 导数 。sigmoid 函 数 和 
仿 射 函数 关于 输入 的 导数 可 以 快速 算得 : 


NAL 一 A'l 








， do i | 
IltDi 一 一 一 OZiL ol(£)) 
dz 
d(Wz+i+b) 
dz 


使 用 最 后 这 两 组 公式 ， 就 可 以 写 出 如 何 从 第 it1 层 癌 第 i 层 反 癌 传播 
误差 项 41 了 了: 


一 W 











在 这 个 公式 中 ， 上 标 T 表 示 和 矩阵 转 置 。 而 符号 ， 即 哈达 玛 积 符 
表示 两 个 癌 量 的 逐个 元 素 乘 积 。 前 面 的 计算 可 以 分 为 两 个 部 分 ， 一 
上 是 稠密 层 ， 另 一 个 是 激活 函数 : 





A 一 Alc GT 人 (2 
Ai= (Wi .A 

















最 后 一 步 是 计算 每 一 层 的 参数 W' 和 的 梯度 。 现 在 已 经 算 好 了 A 
因此 可 以 直接 从 它 读 取 参 数 梯度 : 





VE dLoss AN T 
dw’ 外 


dLoss 


db 
有 了 这 些 误差 项 ， 束 可 以 随意 更 新 神经 网 络 参数 了 ， 我 们 可 以 选择 
任何 优化 器 ， 或 者 任何 更 新 规则 。 





1 


Ab’ = 


B.3 ”顺序 神经 网 络 的 反 回 传播 


通 第 来 说 ， 与 我 们 前 面 讨论 过 的 网 络 相 比 ， 顺 序 网 络 可 以 拥有 更 有 
趣 的 屋 。 例 如 ， 可 以 考虑 第 6 章 介 绍 的 郑 积 层 或 者 第 6 章 介 绍 的 softmax 
激活 函数 等 。 但 无 论 顺 序 网 络 中 用 的 具体 是 哪 种 层 ， 反 癌 传播 算法 的 大 
致 轮廓 都 是 一 致 的 。 如 果 用 g 来 表示 无 激活 前 向 传递 ， 用 Act 表 示 对 应 
的 激活 函数 ， 那 么 要 把 4A! 反 向 传播 到 第 i 层 ， 需 要 计算 下 面 的 变换 : 








14ct .dg 
(yi 
dg’ dz’ 


LN 


我 们 需要 在 中 间 输 出 z 上 计算 其 激活 函数 的 导数 ， 以 及 第 i 层 的 输入 
对 应 的 层 函 数 g 的 导数 。 已 知 所 有 的 增 量 时 ， 我 们 通常 可 以 迅速 推导 层 
中 所 有 参数 的 梯度 ， 这 与 前 癌 传 递 层 中 计算 权重 和 仙 兰 的 方式 相同 。 这 
样 看 的 话 ， 每 一 层 都 可 以 在 不 清楚 周围 层 结 构 的 前 提 下 ， 得 知 如 何 将 数 
据 问 前 传递 ， 也 知道 如 何 将 误差 回 后 反问 传播 。 





B.4 通用 神经 网 络 的 反 回 传播 








在 本 书 中 ， 我 们 只 关心 顺序 神经 网 络 ， 但 是 去 掉 顺序 的 限制 会 发 生 


什么 仍然 是 一 个 有 趣 的 问题 。 在 非 顺 序 网 络 中 ， 一 个 层 有 多 个 输出 ， 或 
者 多 个 输入 ， 或 者 两 者 丝 有 。 


让 我 们 假设 茶 个 层 有 m 个 输出 。 一 个 典型 的 例子 古 将 一 个 癌 量 拆 分 
成 m 部 分 。 对 这 个 层 的 局 部 来 说 ， 前 同 传 递 可 以 拆 分 成 k 个 单独 的 函 
数 ， 而 在 反 回 传递 中 ， 这 些 函 数 的 导数 也 都 可 以 分 别 计算 ， 而 且 每 个 导 
数 对 正在 向 前 一 层 传递 的 增 量 页 献 是 均等 的 。 











在 我 们 必须 处 理 的 n 个 输入 、1 个 输出 的 情形 中 ， 情 况 和 前 面 的 例子 
正好 相反 。 前 向 传递 是 用 时 个 函数 计算 出 来 的 ， 它 接收 n 个 输入 部 件 ， 
并 输出 一 个 单独 的 值 。 在 反问 传递 中 ， 从 下 一 层 接 收 一 个 增 量 ， 因 而 必 
须 计 算出 n 个 输出 增 量 来 传递 给 n 个 输入 层 。 这 些 导数 可 以 独立 计算 ,在 
每 个 对 应 的 输入 端 求 值 。 


对 于 通用 n 输 入、m 和 输出 的 情形 ， 可 以 将 前 面 的 两 个 步骤 合并 起 来 
实现 。 每 个 神经 网 络 ， 无 论 它 的 初始 设置 有 多 复杂 ， 有 多 少 个 层 ， 从 局 
部 看 都 是 这 样 的 。 








B.5 反问 传播 的 计算 挑战 








我 们 可 以 说 反 同 传播 只 是 在 特定 机 器 学 习 算法 中 对 链 式 法 则 的 简单 
应 用 。 虽 然 从 理论 上 来 看 ， 确 实 就 这 么 人 简单， 但 在 实践 中 要 实现 反 同 传 
播 ， 还 需要 考虑 很 多 问题 。 





其 中 最 重要 的 一 个 问题 是 ， 如 果 要 计算 任何 层 的 增 量 和 梯度 更 新 ， 
再 要 提前 准备 好 前 问 传 递 的 相应 输入 以 供 计算 。 如 采 前 癌 传 递 过程 简 单 


地 将 结果 丢 痉 ， 反 回 传 递 时 就 必须 重新 计算 它们 。 因 此 ， 最 好 的 办 法 是 
用 一 个 高 效 的 方式 缓存 这 些 结果 。 在 第 5 章 从 零 开 始 的 实现 中 ， 每 个 层 
都 把 它 的 状态 持久 化 ， 包 括 输入 和 输出 数据 ， 以 及 输入 和 输出 增 量 。 要 
构建 处 理 大 量 数 据 的 网 络 ， 应 当 确 保 计算 的 实现 效率 足够 马 ， 并 且 内 存 
占用 也 足够 低 。 








还 有 一 个 相关 的 问题 也 比较 有 趣 ， 即 中 间 值 的 复 用 问题 。 例 如 ， 我 
们 已 经 讨论 过 ， 在 简单 的 前 馈 网 络 中 我 们 可 以 把 仿 射 线性 变换 和 
sigmoid 激 活 函 数 看 作 一 个 单元 ， 或 者 将 它们 拆 分 成 两 个 不 同 的 层 。 念 
出线 性 变换 的 输出 在 计算 激活 函数 的 反问 传 递 时 是 必要 的 ， 所 以 应 当 在 
前 癌 传 递 计算 过 程 中 把 这 个 中 间 信 息 保存 下 来 。 男 外 ， 由 于 sigmoid 激 
活 函 数 没 有 参数 ， 因 此 可 以 一 次 性 计算 反 向 传递 : 








) ye a \\ 
A = (W’) (A Oo’(z')) 


这 样 做 可 能 会 比分 两 步 计算 效率 更 高 。 如 果 可 以 自动 检测 哪些 操作 
能 够 一 起 执行 ， 将 能 带 来 很 大 的 速度 提升 。 在 更 复杂 的 情况 中 例如 递 
归 神 经 网 络 ， 其 中 一 层 会 最 终 从 上 一 步 给 出 的 输入 中 计算 一 个 循环 》， 
中 间 状 态 的 管理 就 变 得 尤为 重要 。 





附录 C 围棋 程序 与 围棋 服务 需 


本 附录 介绍 几 种 在 线 下 和 线 上 下 围棋 的 方法 。 首 先 ， 我 们 会 展示 如 
何在 本 地 安装 并 使 用 两 个 围棋 程序 一 一 GNU Go 和 Pachi。 接 着 ， 我 们 会 
介绍 几 个 流行 的 围棋 服务 器 ， 可 以 在 线 找到 各 种 水 平 的 人 类 或 AI 对 手 。 


C.1 围棋 程序 


让 我 们 先 从 在 计算 机 上 安装 围棋 程序 开始 。 我 们 会 介绍 两 个 经 典 
的 、 人 免费 的 程序 ， 它 们 都 已 经 存在 了 很 多 年 了 。GNU Go 和 Pachi 都 采 
用 了 第 4 章 中 简要 介绍 过 的 经 典 游 戏 AI 方 法 。 这 里 介绍 它 并 不 是 为 了 讨 
论 它 们 的 实现 机 制 ， 而 是 为 了 得 到 可 以 在 本 地 测试 的 对 手 ， 当 然 ， 我 们 
也 可 以 用 它们 直接 进行 休闲 对 弈 。 














和 大 部 分 围棋 程序 一 样 ，GNU Go 和 了 Pachi 都 支持 我 们 在 第 8 章 中 介 
绍 的 GTP。 这 两 个 程序 都 可 以 用 多 种 方式 来 运行 ， 且 本 书 用 到 过 : 





。 可 以 用 命令 行 运行 它们 ， 并 且 用 交换 GTP 命 令 的 方式 进行 对 弈 。 我 
们 在 第 8 章 中 用 这 种 方式 来 让 上 自己 的 机 器 人 与 GNU Go 和 Pachi 对 
a 
弛 。 

。 两 个 程序 都 可 以 安装 GTP 前 端 ， 即 图 形 界面 。 这 样 人 们 就 可 以 快乐 
地 与 它们 进行 对 罕 了 。 











C11l GNU Go 


GNU Go 开发 于 1989 年 ， 是 到 目前 为 止 仍然 活跃 的 最 古老 的 围棋 引 
和 擎 之 一 。 它 的 最 新 版 发 布 于 2009 年 。 虽 然 近 期 开发 很 少 ， 但 是 GNU Go 
仍然 是 很 多 围棋 服务 器 上 初学 者 的 热门 AI 对 手 ， 并 且 它 也 是 众多 基于 手 
工 规 则 的 围棋 引擎 中 最 强 的 一 个 。 它 为 MCTS 或 深度 学 习 机 器 人 提供 了 
一 个 很 好 的 对 比 。 读 者 可 以 在 GNU Go 的 官网 上 下 载 和 安装 它 ， 它 支持 
的 操作 系统 包括 Windows、Linux 和 macOS。 官 网 还 包括 了 用 命令 行 界面 
(Command-Line Interface，CLI) 安装 GNU Go 的 说 明文 档 ， 以 及 各 种 
图 形 界面 的 链接 。 要 安装 CLI 工 具 ， 读 者 需要 最 新 的 GNU Go 二 进 制 文 
件 ， 解 压缩 对 应 的 tarbal 压 纵 包 ， 并 按照 下 载 文件 中 的 INSTALL 文 件 和 
README 文 件 中 的 指令 ， 进 行 安装 。 而 对 于 图 形 界面 ， 如 果 是 Windows 
和 Linux 操 作 系 统 ， 我 们 推荐 安装 JagoClient; 如 果 是 macOS 操 作 系 统 ， 
我 们 推荐 安装 FreeGoban。 要 测试 安装 好 的 程序 ， 可 以 运行 如 下 命令 : 


gnugo --mode gtp 


这 个 命令 会 以 GTP 模 式 启动 GNU Go。 程 序 会 开启 一 局 19x19 棋 盘 的 
围棋 比赛 ， 并 从 命令 行 接收 输入 。 例 如 ， 可 以 键入 genmove white 并 按 
Enter 键 ， 要 求 GNU Go 生成 一 步 白 方 沙子 动作 。 它 会 返回 一 个 = 符号 ， 
表示 一 个 合法 的 命令 ， 接 着 返回 一 步 动 作 的 坐标 。 例 如 ， 回 答 可 能 是 = 
C3。 在 第 8 半 中 ， 我 们 在 GTP 模 式 下 使 用 GNU Go 来 作为 深度 学 习 机 堪 人 
的 对 手 。 

















在 选择 安 次 了 一 个 图 形 界面 之 后 ， 你 束 可 以 下 接 与 GNU Go 来 一 局 
比赛 ， 测 试 自己 的 围棋 技艺 了 。 


C.1.2 Pachi 


Pachij 总 体 来 说 比 GNU Go 强 不 少 ， 可 以 在 它 的 官方 网 站 上 下 载 。 为 
外 ，Pachi 的 源 代码 和 详细 的 安装 指令 ， 可 以 在 GitHub 上 找到 。 要 测试 
Pachi， 可 以 在 命令 行 运行 pachi， 并 键入 genmove black 让 它 生 成 一 个 
9x9 棋 盘 的 黑子 动作 。 


C.2 围棋 服务 器 


在 自己 的 计算 机 上 与 围棋 程序 对 弈 既 有 乐趣 ， 又 很 有 用 处 ， 但 在 线 
围棋 服务 器 提供 了 更 丰富 、 更 强大 的 人 类 与 AI 对 手 池 。 人 们 或 机 器 人 可 
以 在 这 些 平 台 上 注册 账户 ， 参 与 排名 比赛 ， 提 升 他 们 的 对 研 水 平和 名 
次 。 对 人 们 来 说 ， 它 能 提供 竞争 力 更 强 、 互 动 性 更 强 的 赛场 。 而 对 机 器 
人 来 说 ， 在 线 服 务 器 可 以 提供 终极 的 测试 场所 ， 让 它 与 全 世界 的 棋 手 苋 
争 。 读 者 可 以 在 Sensei’s Library 上 找到 一 个 很 大 的 围棋 服务 器 列表 。 我 
们 下 面 列 出 其 中 3 个 提供 了 英文 客户 端的 服务 器 。 我 们 这 么 做 是 有 伺 好 
的 ， 因 为 现在 最 大 的 围棋 服务 器 实际 上 都 是 中 文 、 韩 文 和 日 文 的 ， 并 不 

售 英 文 文 持 。 但 是 因为 本 书 原 闭 是 用 英文 编写 的 ， 所 以 我 们 想 要 给 读 
者 提供 用 瑞 文 吉 可 以 访问 的 围棋 服务 器 。 


C2.1 OGS 





OGS (Online Go Server) 是 一 个 设计 优美 的 网 页 版 围棋 平台 。 
OGS 也 是 我 们 在 第 8 章 和 附录 EE 中 用 来 演示 如 何 连 接 机 器 人 的 围棋 服务 


器 。OGS 功 能 很 丰富 ， 更 新 也 很 频 楷 ， 有 一 组 活跃 的 管理 人 ， 是 西半球 
最 受 欢 迎 的 围棋 服务 器 之 一 。 而 且 ， 作 者 也 非常 喜欢 它 。 


.2.2 IGS 


IGS (Internet Go Server) 创建 于 1992 年 ， 是 活跃 至 今 的 最 老 的 围 
棋 服 务 器 之 一 。 它 一 直 都 很 受 欢迎 ， 而 且 在 2013 年 修改 了 新 的 界面 。 它 
也 是 少 有 的 拥有 原生 Mac 客 户 端的 围棋 服务 器 之 一 。IGS 是 竞争 力 更 强 
的 服务 器 之 一 ， 用 户 群 这 及 全 球 。 


C.2.3 Tygem 


Tygem 是 一 个 韩国 的 围棋 服务 器 ， 它 可 能 是 我 们 列 出 的 3 个 服务 器 
中 用 户 最 多 的 一 个 。 一 天 中 任何 时 刻 登 录 上 去 ， 都 能 找到 数 以 生计 的 各 
种 水 平 的 对 手 。 它 的 竞争 力也 非常 强 。 很 多 世界 顶尖 职业 棋 手 都 在 
Tygem 上 下 棋 〈 有 时 候 会 匿名 ) 。 


附录 D 用 AWS 来 训练 和 部 署 围 棋 程 序 与 
围棋 服务 桥 


在 本 附录 中 ， 我 们 将 学 习 如 何 利 用 云 服 务 平台 Amazon Web 
Services 《AWS) 构建 和 部 草 深 度 学 习 模 型 。 掌 握 如 何 使 用 云 服务 以 及 
上 传 模型 也 是 一 个 通用 的 有 用 技能 ， 并 不 只 限于 围棋 机 器 人 的 用 例 。 读 
者 将 学 习 下 列 技能 : 


。 在 AWS 上 设置 一 个 虚拟 服务 器 ， 用 于 深度 学 习 模 型 训练 ; 
。 在 云端 运行 深度 学 习 实验 ; 


。 把 带 有 网 页 界面 的 围棋 机 器 人 部 署 到 服务 器 上 ， 分 人 圣 给 所 有 人 。 








在 编写 本 书 时 ，AWS 是 世界 上 最 大 的 云 服务 商 ， 它 提供 了 很 多 便 
利 。 实 际 上 本 附录 也 可 以 选择 其 他 云 服 务 加 以 介绍 ， 但 众多 较 大 的 云 服 
务 商 所 提供 的 服务 很 大 程度 上 有 所 重 登 ， 因 此 只 要 掌握 其 中 一 个 的 使 用 
技巧 ， 束 能 够 帮助 你 使 用 其 他 的 服务 。 








要 开始 使 用 AWS， 首 先 访问 它 的 官方 网 站 。 从 网 页 中 可 以 看 到 ， 
AWS 提 供 了 范围 很 广 、 数 量 惊 人 的 各 类 产品 。 不 过 在 本 书 中 读者 只 需 
要 掌握 其 中 一 个 服务 即 可 : 亚马逊 弹性 计算 云 (Elastic Compute 
Cloud，EC2) 。EC2 让 人 们 可 以 轻松 地 访问 云端 的 虚拟 服务 器 。 读 者 可 
以 根据 个 人 的 需求 ， 给 这 些 服务 器 实例 设置 不 同 的 硬件 配置 。 要 高 效 地 
训练 深度 神经 网 络 ， 我 们 需要 用 到 很 强大 的 GPU。 虽 然 AWS 并 不 总 能 


提供 最 新 一 代 的 GPU， 但 灵活 地 购买 云端 GPU 的 计算 时 间 ， 不 需 巨 大 的 
先期 硬件 投入 ， 仍 然 不 失 为 一 个 展 好 的 开端 。 





读者 需要 做 的 第 一 件 事 是 在 AWS 上 注册 一 个 账户 。 填 写 图 D-1 所 示 
的 表单 。 


注册 完成 之 后 ， 在 对 应 网 页 的 右上 方 ， 点 击 “Sign in to the 
Console”《〈 登 录 管 理 控制 台 ) 链接 进入 账户 页 面 。 然 后 页 面 会 跳 转 到 个 
人 的 账户 管理 控制 台 页 面 。 从 最 顶 疹 的 沫 单 栏 中 ， 点 击 “Services”《〈 服 
务 ) ， 会 弹出 一 列 AWS 核 心服 务 产品 。 点 击 其 中 的 “Compute”(〈 计 算 ) 
分 类 中 的 “EC2? 选 项 ， 如 图 D-2 所 示 。 


这 样 页 面 就 会 跳 转 到 EC2 的 管理 控制 台 ， 它 会 展示 当前 正在 运行 的 
实例 ， 以 及 它们 的 状态 。 当 然 ， 由 于 你 刚刚 注册 ， 应 当 看 到 0 个 正在 运 
行 的 实例 。 要 启动 一 个 新 实例 ， 点 击 “Launch Instance”《〈 局 动 实例 ) 按 
钮 ， 如 图 D-3 所 示 。 


到 这 里 ， 网 站 会 要 求 你 选择 一 个 亚马逊 机 器 映像 (“Amazon Machine 
Image，AMI) ， 它 是 一 个 蓝图 ， 包 括 可 以 安装 到 你 的 实例 上 的 所 有 软 
件 。 要 迅速 开始 ， 可 以 选择 一 个 为 深度 学 习 特 别 制定 的 AMI。 在 左 侧 的 
边栏 中 可 以 找到 AWS 商 店 《〈 见 图 D-4) ， 里 面 有 很 多 有 用 的 第 三 方 
AMI。 


Create an AWS account 


Email address 


Password 
Confirm password 
AWS account name @ 


Sign in to an existing AWS account 


© 2018 Amazon Web Services, Inc. or its affiliates. 
All rights reserved. 


Privacy Policy Terms of Use 


图 D-1 注册 一 个 AWS 账 户 


Resource Groups ~ 食 
Finaa sovice by rame or feature (t 
{0} Compute 


EC2 

Lightsail 2 

Elastic Container Service 
Lambda 

Batch 

Elastic Beanstalk 


图 D-2 在 服务 (Services) 菜单 中 选择 弹性 云 计算 (EC2) 服务 


Create Instance 


To start using Amazon EC2 you will want to launch a virtual server known as an Amazon EC2 instance. 


Launch Instance “”m 


图 D-3 ”局 动 一 个 新 的 AWS 实 例 








Quick Start 
My AMIs 
AWS Marketplace 
Community AMIs 
v _ Categories 


All Categories 


Software Infrastructure 
(2320) 


Developer Tools (567) 
Business Software (1154) 


图 D-4 选择 AWS 商 店 


在 商店 中 ， 搜 索 Deep Learning AMI Ubuntu， 如 图 D-5 所 示 。 从 名 字 
可 以 看 出 ， 这 个 实例 运行 在 Ubuntu Linux 操 作 系 统 上 ， 而 且 已 经 预 装 了 
很 多 有 用 的 组 件 。 例 如 ， 这 个 实例 中 可 以 找到 TensorFlow 和 Keras， 而 且 
所 有 必需 的 GPU 驱动 都 已 经 装 好 了 。 因 此 ， 当 这 个 实例 准备 好 之 后 ， 就 
可 以 直接 开始 深度 学 习 应 用 ， 而 不 用 花费 时 间 和 精力 去 安装 软件 。 





选择 这 个 特定 的 AMI 花 费 并 不 多 ， 但 它 也 不 是 完全 免费 的 。 如 果 你 
想 要 一 个 免费 的 实例 ， 可 以 查看 仪 限 免费 套 和 (free tier eligible) 标 
签 。 例 如 ， 图 D-4 显 示 的 “Quick Start” (快速 启动 ) 中 显示 的 大 部 分 AMI 
都 是 可 以 免费 获得 的 。 


Quick Start 


| Q Deep Learning AMI Ubuntu 
My AMIs 
Deep Learning Base AMI (Ubuntu) 
AWS Marketplace oanazon 
ServiceS 。 六 太太 女 太 (人 13.01Sold by Amazon Web Services 
Community AMIs $0.023 to $41.944/hr incl EC2 charges + other AWS usage fees 
LinuxwyUnix, Ubuntu 16.04 | 64-bit Amazon Machine Image (AMI) | Updated: 1/25/18 
v Categories Comes with just the foundational building blocks of deep learning i.e. NVidia CUDA, 


3 accelerate machine learning ... 
All Categories 
More info 





图 D-5 ”选择 一 个 适合 深度 学 习 的 AMI 








选择 好 看 中 的 AMI 之 后 ， 会 弹出 一 个 标签 页 ， 里 面 会 根据 选择 的 类 
型 显示 这 个 AMI 的 价格 ， 如 图 D-6 所 示 。 


Deep Learning Base AMI (Ubuntu) 


Deep Learning Base AMI (Ubuntu) Pricing Details 


[0 
rainazon Comes with just the foundational building blocks of 


deep leaming ie. NVidia CUDA, cuDNN, GPU Hourly Fees 
drivers, and low-level system libraries to scale and 
celerate machine learing operations on AWS Instance Type Software EC2 Total 
Th MI 
EC2 instances，The base AMI serves as a clean 。 R3 Eight Extra Large $0.00 $3.201 $3.201/hr 
slate to deploy your customized deep leaming set 
入 M3 Extra Large $0.00 $0.315 $0.315/hr 
R4 16 Extra Large $0.00 $5.122 $5.122/hr 
For example, for developers contributing to open .. M4 Extra Large $0.00 $0.24 $0.24/hr 
Moreinfo Graphics Two Extra Large $0.00 $0.772 -$0.772/hr 
View MUNIona) Datate W AVG Meronpincs C3 Quadruple Extra Large $0.00 $1.032 $1.032/hr 
Product Details High I/O Quadruple Extra Large $0.00 $1.488 $1.488/hr 





图 D-6 深度 学 习 AMI 的 价格 会 根据 选择 实例 有 所 不 同 





接 下 来 可 以 选择 实例 类 型 。 在 图 D-7 中 可 以 看 到 所 有 优化 了 GPU 性 
能 的 实例 类 型 。 选 择 p2.xlarge 是 一 个 不 错 的 开始 选项 ， 但 是 请 记 住 所 有 
的 GPU 实例 都 相对 昂 贯 。 如 条 你 只 是 想 要 尝试 一 人 AWS， 并 熟悉 这 里 
展示 的 功能 的 话 ， 可 以 先 选 择 一 个 便宜 的 忆 .small 实 例 。 如 果 只 对 部 团 和 
托管 模型 感 兴趣 ， 那 么 2.smal 实 例 已 经 足够 ， 毕 竟 只 有 模型 训练 过 程 
依赖 于 昂贵 的 GPU 实例 。 


GPU graphics g3.4xlarge 16 122 EBS only 
GPU graphics g3.8xlarge 32 244 EBS only 
GPU graphics 93.16xlarge 64 488 EBS only 
GPU instances g2.2xlarge 8 15 1x 60 (SSD) 
GPU instances g2.8xlarge 32 60 2 x 120 (SSD) 
GPU compute p2.xlarge 4 61 EBS only 
GPU compute p2.8xlarge 32 488 EBS only 


GPU compute p2.16xlarge 64 732 EBS only 
图 D-7 选择 适合 自己 需求 的 实例 


选择 好 实例 类 型 之 后 ， 可 以 点 击 右 下 角 的 “Review and Launch”( 复 
但 和 启动 ) 按钮 直接 启动 实例 。 但 是 ， 因 为 还 有 几 个 设置 需要 调整 ， 所 
以 可 以 点 击 “Next: Configure Instance Details”( 下 一 步 : 配置 实例 详细 信 
恩 ) 按钮 。 接 下 来 的 第 3 步 到 第 5 步 对 话 框 可 以 先 直接 跳 过 ， 但 是 第 6 
步 “Configure Security Group”( 配 置 安全 组 ) 是 需要 注意 的 。AWS 的 安 
全 组 〈security group) 通过 定义 规则 (rule) 来 控制 实例 的 访问 权限 。 
我 们 需要 配置 如 下 访问 权限 。 

















。 首先 ， 我 们 需要 能 够 通过 SSH 登 录 访 问 实例 。 实 例 上 的 SSH 端 口 22 
应 该 已 经 打开 了 而且 这 一 条 应 该 是 新 实例 上 唯一 的 指定 规则 》， 
但 是 还 需要 对 访问 做 出 限制 ， 只 允许 从 你 的 本 地 机 器 登录 。 这 么 做 
是 出 于 安全 考虑 ， 让 其 他 人 无 法 访问 你 的 AWS 实 例 ， 而 只 有 你 的 IP 
获得 许可 。 这 一 点 可 以 通过 在 “Source”( 来 源 ) 上 选择 “My IP” (我 
的 IP〉 来 实现 。 

。 因为 你 还 需要 部 罩 一 个 Web 应 用 ， 甚 至 之 后 还 需要 一 个 机 器 人 能 够 
连接 其 他 的 围棋 服务 器 ， 所 以 还 应 当 打 开 HTTP 端 口 80。 可 以 先 点 
击 “Add Rule”《〈 添 加 规则 ) ， 然 后 选择 HTTP 类 型 。 这 样 做 会 自动 
选择 曾 口 80。 由 于 我 们 希望 所 有 人 都 能 够 连接 我 们 设计 的 机 器 人 ， 
因此 需要 在 “Source”( 来 源 ) 里 选择 “Anywhere”( 任 何 位 置 ) 。 

。 第 8 章 的 HTTP 围 棋 机 器 人 运行 在 端口 5000 上 ， 所 以 也 应 该 打开 这 个 











端口 。 生 产 场景 中 一 般 会 在 80 端 口上 部 署 一 个 合适 的 Web 服 务 器 ， 
然后 它 会 将 流量 内 部 重 定向 到 5000 端 口 。 但 为 了 方便 ， 我 们 暂时 牺 
牲 安全 性 ， 直 接 打 开端 口 5000。 这 个 HTTP 端 口 的 来 源 也 选 

择 “Anywhere”， 这 样 会 弹出 一 个 安全 警告 ， 但 是 由 于 你 现在 并 不 会 
处 理 敏 感 或 私有 的 数据 程序 ， 因 此 可 以 忽略 。 











如 果 按 照 刚才 的 描述 设置 好 访问 规则 ， 那 么 配置 结果 应 该 如 图 D-8 
所 示 。 








图 D-8 ”为 你 的 AWS 实 例 配 置 安全 组 








完成 安全 设置 之 后 ， 可 以 点 击 “Review and Launch” 按 钮 来 启动 实 
例 。 这 会 打开 一 个 窗口 ， 询 问 是 否 创建 一 个 新 的 密 钥 对 ， 或 者 选择 一 个 
己 有 的 密 钥 对 。 你 需要 在 下 拉 沫 单 中 选择 “Create a New Pair” (创建 一 个 
新 密 钥 对 ) 。 这 里 唯一 需要 填 入 的 是 选择 一 个 密 钥 对 名 称 (key pair 
name) ， 然 后 点 击 “Download Key Pair”( 下 载 密 钥 对 ) 来 下 载 私 钥 
《secret key) 。 下 载 的 密 钥 文 件 名 称 是 前 面 选择 的 名 称 ， 文 件 扩展 名 
是 .pem。 请 保证 将 这 个 私 钥 存 放 到 一 个 安全 的 地 方 。 私 钥 的 公 钥 由 AWS 
管理 ， 并 会 放 到 将 要 局 动 的 实例 中 。 一 旦 新 建 了 一 个 密 钥 ， 以 后 就 可 以 
复 用 它 了 。 只 要 点 击 “ 选 择 一 个 已 有 的 密 钥 对 ) 即 可 。 在 图 D-9 中 可 以 看 
到 我 们 已 经 创建 了 一 个 名 为 maxpumperla_aws.pem 的 密 钥 对 。 




















Select an existing key pair or create a new key pair X 


A key pair consists of a public key that AWS stores, and a private key file that you store. Together 
they allow you to connect to your instance securely. For Windows AMls, the private key file is required 
to obtain the password used to log into your instance. For Linux AMIs, the private key file allows you to 
securely SSH into your instance. 


Note: The selected key pair will be added to the set of keys authorized forthis instance. Learn more 
about removing existing key pairs from a public AMI . 


v Choose an existing key pair | 
3 


Create a new key pair 
Proceed without a key pair 


A Nokeypairsfound 
You don't have any key pairs. Please create a new key pair by selecting the 
Create a new key pair option above to continue. 


~ ET 


图 D-9 ”为 AWS 实 例 创建 一 个 新 密 钥 对 





这 样 就 完成 了 最 后 一 步 设 置 ， 现 在 可 以 点 击 “Launch Instance” 按 钮 
来 启动 实例 了 。 你 会 看 到 一 个 称 为 “Launch Status”( 局 动 状 态 ) 的 概览 
界面 ， 接 着 可 以 点 击 右 下 方 的 “View Instances”( 查 看 实例 ) 。 这 样 会 回 
到 EC2 主 管理 控制 台 〔( 即 当初 点 击 “Launch Instance” 打 开 的 页 面 )。 现 
在 可 以 在 列表 里 看 到 你 的 实例 了 。 等 待 一 段 时 间 后 ， 实 例 状态 就 会 变 
为 “running”( 运 行 中 ) ， 并 且 在 状态 列 劳 边 有 一 个 绿色 的 点 。 这 意味 着 
实例 已 经 准备 好 ， 现 在 可 以 连接 它 了 。 点 击 实例 左 方 的 复 选 框 ， 诉 活页 
面 顶端 的 “Connect”( 连 接 ) 按钮 。 点 击 这 个 按钮 会 打开 一 个 图 D-10 所 
示 的 窗口 








Connect To Your Instance x 


1would like to connect with @ A standalone SSH client 
A Java SSH Client directly from my browser (Java required) 
To access your instance: 


1. Open an SSH client. (find out how to connect using PuTTY) 


2. Locate your private key file (maxpumperia_aws.pem). The wizard automatically detects the key you used to launch the 
instance. 


3. Your key must not be publicly viewable for SSH to work. Use this command if needed 
chmod 400 maxpumperla_aws.pem 
4. Connect to your instance using its Public DNS 
ec2-35-157-25-32.eu-central-1.compute .amazonaws .Com 
Example: 
ssh -i "maxpumperla_aws.pem" ubuntuB@ec2-35-157-25-32.eu-central-1.compute .amazonaws .com 


Please note that in most cases the username above will be correct, however please ensure that you read your AMI 
Usage instructions to ensure that the AMI owner has not changed the default AMI username. 


If you need any assistance connecting to your instance, please see our connection documentation 


图 D-10 ”创建 一 个 新 的 密 钥 对 来 访问 AWS 实 例 





这 个 页 面包 含 了 大 量 有 用 的 信息 ， 帮 助 用 户 连 接 实 例 ， 所 以 请 仔细 
阅读 。 特 别 地 ， 它 会 给 出 如 何 用 ssh 连 接 实例 的 指令 。 如 果 打 开 一 个 命 
令 行 窗 口 ， 复 制 并 粘贴 “Example” 《示例 ) 下 方 的 ssh 命 令 ， 应 当 能 够 建 
立 一 个 到 你 的 AWS 实 例 的 连接 。 这 个 命令 格式 如 下 : 


ssh -i "<full-path-to-secret-key-pem>" <username>@<public-dns-of-your-inst 


ance> 








是 个 很 长 的 命令 ， 用 起 来 可 能 不 太 方 便 ， 尤 其 是 在 有 很 多 实例 或 
SSH 连 接 需 要 处 理 的 时 候 。 要 让 事情 变 得 更 简单 些 ， 我 们 可 以 编辑 SSH 
配置 文件 。 在 UNIX 环 境 中 ， 这 个 配置 文件 一 般 存 放 在 ~/.ssh/config 文 件 
中 。 在 其 他 系统 中 ， 它 的 路 径 有 所 不 同 。 如 果 有 必要 ， 在 .ssh 目 录 中 新 
建 这 个 文件 ， 然 后 填 入 如 下 内 容 : 








Host aws 
HostName “pub1lic-dns-of-your-instancey> 
User ubuntu 
Port 22 


IdentityFile <full-path-to-secret-key-pem> 


存储 这 个 文件 之 后 ， 就 可 以 直接 在 命令 行 键入 ssh aws 来 连接 实例 
了 。 第 一 次 连接 时 ， 系 统 会 提问 是 否 想 要 连接 ， 0 

。 你 的 密 钥 会 被 永久 添加 到 这 个 实例 上 《可 以 通过 运行 cat 
~/.ssh/authorized_keys 来 查看 你 的 密 钥 对 的 安全 哈 希 值 ) ， 以 后 束 
不 会 再 询问 了 。 

















一 次 成 功 登录 Deep Learning AMI Ubuntu AMI 实 例 中 假设 你 选 
择 的 是 这 个 AMI) 的 时 候 ， 系 统 会 询问 你 想 选 择 哪 一 个 Python 环境 。 其 
中 一 个 选项 source activate tensorflow _p36， 指 的 是 用 Python 3.6 
安装 的 完整 的 Keras 和 TensorFlow 环 境 ; 如 果 你 更 想 要 Python 2.7， 那 么 
可 以 选择 source activate tensorflow_ p27。 在 本 附录 的 剩余 内 容 
中 ， 我 们 假设 你 跳 过 了 这 个 选择 ， 而 使 用 实例 上 已 经 提供 的 基本 Python 
版 本 。 





在 继续 讨论 如 何在 实例 中 运行 程序 之 前 ， 我 们 先 快速 讨论 一 下 如 何 
终止 一 个 实例 。 这 一 点 很 重要 ， 因 为 如 果 瑟 记 终止 一 个 很 昂贵 的 实例 ， 
很 可 能 会 融 来 每 个 月 几 百 美元 的 文 出 。 要 终止 一 个 实例 ， 需 要 先 选 择 这 
个 实例 〈 和 前 面 一 样 ， 点 击 实例 劳 边 的 复 选 枉 ) ， 接 着 点 击 页 面 上 方 
的 “Actions”( 操 作 ) 按钮 ， 接 着 点 击 “Instance State”( 实 例 状 态 ) ， 再 
点 击 “Terminate”( 终 止 》。 终 止 一 个 实例 后 ， 会 删除 这 个 实例 ， 包 括 它 
上 面 存储 的 所 有 内 容 。 所 以 在 终止 之 前 ， 请 确保 你 备份 了 所 有 需要 的 东 
西 《例如 训练 过 的 模型 ) ， 我 们 会 在 稍 后 介绍 如 何 备份 数 据 。 另 一 个 选 
项 ， 是 停止 实例 〈Stop) ， 它 允许 以 后 再 次 启动 (Start) 实例 。 但 请 注 














意 ， 根 据 你 的 实例 所 带 有 的 存储 性 质 ， 这 样 可 能 还 是 会 市 来 数据 丢失 。 
这 种 情况 下 ， 系 统 会 弹出 一 个 警告 。 


D.1 在 AWS 上 进行 模型 训练 


做 好 一 切 准 备 之 后 ， 在 AWS 上 运行 一 个 深度 学 习 模 型 和 在 本 地 运 
行 的 方式 是 一 样 的 。 首 先 需 要 确保 所 有 的 代码 和 数据 都 已 经 复制 到 了 实 
例 上 。 要 做 到 这 一 点 ， 一 个 简单 的 办 法 是 使 用 scp 命 令 安全 地 复制 上 
去 。 例 如 ， 从 本 地 机 器 上 ， 可 以 运行 如 下 命令 来 计算 一 个 从 头 到 尾 的 示 
例 : 





git clone https://github.com/maxpumperla/deep_ learning and the_game_of_go 
cd deep learning and the game of go 

scp -r ./code aws:~/code <--- ”将 代码 从 本 地 复制 到 远程 AWS 实 例 中 
ssh aws <--- 用 ssh 登 录 到 实例 中 








cd ~/code 

python setup.py develop <--- ”安装 dlgo Python 库 
cd examples 

python end to end.py <--- 运行 一 个 从 头 到 尾 的 示例 








在 这 个 示例 中 ， 假 设 从 零 开 始 ， 先 从 我 们 的 GitHub 代 码 库 中 克隆 代 
码 。 在 实践 中 ， 你 肯定 已 经 做 过 这 一 步 了 ， 所 以 需要 先 编译 自己 的 实验 
模型 。 你 需要 先 创建 想 要 训练 的 深度 神经 网 络 ， 接 着 运行 需要 的 示例 。 
我 们 刚才 展示 的 示例 end_to_end.py 会 生成 一 个 序列 化 的 深度 机 器 人 ， 放 
入 示例 目录 的 相对 路 径 : ../agents/deep_bot.h5。 示 例 运 行 之 后 ， 可 以 把 
模型 保留 在 那里 《例如 ， 继 续 托 管 ， 或 者 继续 改进 它 ) 或 者 从 AWS 实 
例 上 下 载 过 来 ， 复 制 回 自己 的 机 器 。 例 如 ， 在 本 地 机 器 的 命令 行 中 ， 可 
以 用 下 面 的 命令 将 AWS 上 的 一 个 deep_bot.h5 机 器 人 复制 回 本 地 : 











cd deep learning and _ the game of go/code 





scp aws:~/code/agents/deep_ bot.h5 ./agents 
这 样 ， 我 们 可 以 总 结 一 个 相对 简洁 的 模型 训练 工作 流程 。 
(1) 在 本 地 使 用 dlgo 框 架 建 立 和 测试 自己 的 深 友 实验 。 
(2) 将 本 地 的 代码 更 改 安全 地 复制 到 AWS 实 例 上 。 
(3) 远程 登录 机 器 ， 局 动 实验 。 


(4) 训练 结束 后 ， 评 估 结 果 ， 更 新 实验 数据 ， 并 从 第 1 步 开 始 局 动 
一 个 新 的 实验 周期 。 


(5) 如 果 需 要 ， 可 以 将 训练 好 的 模型 复制 回 本 地 机 器 ， 以 备 示 来 
复 用 或 作为 其 他 用 途 。 


D.2 在 AWS 上 用 HTTP 托 管 一 个 机 器 人 


第 8 章 展 示 了 如 何 用 HITP 月 动 一 个 机 器 人 服务 ， 让 你 的 朋友 可 以 通 
过 Web 界 面 与 它 开 展 对 弈 。 这 么 做 的 缺点 是 你 必须 在 本 地 机 器 上 局 动 一 
个 Python 的 web 服务 器 ， 因 此 如 宁 他 人 想 要 测试 这 人 台 机 器 ， 他 们 必须 能 
够 直接 访问 这 人 台 计 算 机 。 而 如 果 将 这 个 Web 应 用 部 普 到 AWS， 并 开局 必 
要 的 端口 (正如 我 们 在 前 面 配置 实例 里 所 做 的 ) ， 就 可 以 通过 URL 来 共 
译 机 器 人 了 。 











运行 HTTP 前 端的 方式 和 之 前 一 样 ， 只 需要 这 么 做 就 可 以 : 


ssh aws 
cd ~/code 
python web demo.py \ 


--bind-address 6.0.0.0 \ 
--pg-agent agents/9x9 from nothing/round 887.hdf5 \ 
--predict-agent agents/betago.hdf5 





这 样 会 在 AWS 上 局 动 一 个 可 以 对 至 的 机 器 人 演示 程序 ， 并 可 以 通 
过 如 下 地 址 访问 : 


http://<public-dns-of-your-instance>:5668/static/play_predict 19.html 





这 样 就 搞定 了 ! 在 附录 E 中 ， 我 们 会 再 进一步 展示 如 何 利 用 这 里 介 
绍 的 AWS 基 础 知识 来 部 署 一 个 完整 的 机 器 人 ， 并 采用 GTP 连 接 到 OGS 
es 


附录 E ”将 机 严 人 及 布 到 OGS 


在 本 附录 中 ， 我 们 将 介绍 如 何 将 机 器 人 部 罩 到 广 受 欢迎 的 OGS。 要 
做 到 这 一 点 ， 需 要 使 用 本 书 前 8 章 介绍 的 机 器 人 框架 ， 在 AWS 提 供 的 云 
平台 上 部 普 一 个 机 器 人 ， 并 让 它 文 持 GTP。 因 此 ， 要 阅读 本 附录 ， 读 者 
应 当先 读 过 本 书 前 8 章 内 容 〈 以 理解 机 器 人 框架 的 基本 知识 ) 和 附录 
D (以 了 解 AWS 的 基本 信息 ) 。 





E.1 在 OGS 上 注册 机 器 人 并 激活 它 


OGS 是 一 个 流行 的 围棋 平台 ， 人 们 可 以 在 这 个 平台 上 与 其 他 人 或 机 
侣 人 进行 对 列 。 附 录 C 还 介绍 了 其 他 几 个 围棋 服务 促 ， 但 我 们 在 本 附录 
中 选择 OGS 来 展示 如 何 部 署 机 器 人 。OGS 是 一 个 现代 化 的 Web 平 台 ， 读 
者 可 以 自行 注册 账户 。 注 意 ， 如 果 要 在 OGS 上 部 闭 机 器 人 ， 和 需要 创建 两 
个 账户 。 





。 注册 一 个 个 人 使 用 的 账户 ， 作 为 个 人 帐户， 填写 用 户 名 、 密 码 和 可 
选 的 邮件 地 址 ， 也 可 以 通过 谷歌 、Facebook 或 者 Twitter 等 账户 系统 
注册 。 下 面 我 们 会 把 这 个 账户 称 为 <human>。 

。 接着 再 回 到 注册 页 面 ， 注 册 男 一 个 账户 ， 这 个 账户 会 作为 机 器 人 账 
户 使 用 ， 所 以 命名 时 要 注意 表明 它 的 机 器 人 号 份 。 我 们 会 在 接 下 来 
的 内 容 里 把 它 称 为 <bot>。 


至 此 我 们 就 有 了 两 个 常规 账户 。 接 下 来 需要 把 第 二 个 账户 的 属性 改 


为 机 器 人 账户 ， 并 设置 人 工 账户 管理 员 。 要 做 到 这 一 点 ， 首 先 需 要 用 人 
工 账户 登录 OGS， 联 系 到 一 个 OGS 管 理 员 ， 请 他 们 激活 机 器 人 账户 。 在 
网 站 左上 方 紧邻 OGS 商 标的 地 方 ， 可 以 打开 菜单 ， 按 名 称 搜索 用 户 。 本 
书 的 注册 过 程 所 找 的 OGS 管 理 员 是 crocrobot 和 anoek。 如 果 搜 索 其 中 

一 个 名 字 ， 并 在 搜索 结果 中 点 击 账户 名 称 ， 会 弹出 一 个 如 图 E-1 所 示 的 

窗口 。 








三 全 人 GGS Home Play 


Q icrocrobot 


Players 


1602 土 157 
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图 E-1 联系 OGS 管 理 员 帮 助 激活 机 器 人 账户 





在 这 个 消息 窗口 中 ， 点 击 “Message”( 消 息 ) 按钮 联系 管理 员 。 页 
面 右 下 方 会 打开 一 个 聊天 窗口 。 告 诉 管理 员 我 们 想 要 把 cbot> 用 户 激活 
成 机 器 人 人 账户， 并 且 这 个 机 器 人 属于 个 人 账户 <human>〈 也 就 是 当前 登 
录 的 账户 ) 。 通 常 ，OGS 管 理 员 会 在 24 小 时 内 答复 ， 我 们 可 能 需要 耐心 
等 待 。OGS 的 顶端 菜单 中 的 “Chat” (聊天 ) 选项 里 可 以 找到 管理 员 ， 这 
里 所 有 名 字 和 劳 边 有 一 个 锤子 图 标的 用 户 都 是 0OGS 管 理 员 。 如 条 某 个 管理 
员 正 在 度假 ， 或 者 因为 其 他 原因 而 在 忙碌 中 ， 可 以 找 另 外 一 个 来 帮忙 。 











如 果 无 法 直接 联系 管理 员 ， 也 可 以 试 着 在 OGS 论 坛 中 的 “OGS 
Development”(OGS 开 发 ) 板块 上 发 一 个 帖子 。 请 记 住 ， 所 有 的 管理 员 
都 是 利用 业余 时 间 义 务工 作 的 ， 所 以 请 有 点 儿 耐 心 。 


收 到 管理 员 的 答复 之 后 ， 就 可 以 登录 <bot> 账 己 了 。 在 顶部 左 侧 沫 
单 栏 选择 “Profile”〈 账 户 信 息 ) ， 查 看 机 器 人 的 账户 信息 。 如 果 一 切 顺 
利 ，<bot> 账 户 应 当 已 经 被 列 为 “Artificial Intelligence”( 人工 智 能 ) 账 
户 ， 并 且 有 一 个 管理 员 (Administrator) ， 即 <human> 账 户 。 机 器 人 账 
户 信息 页 应 当 和 图 E-2 中 的 BetagoBot 账 户 类 似 ， 它 由 作者 Max 的 个 人 
账户 DoubleGotePanda 管 理 。 


BetagoBot [7 


是 站 


请 Artificial Intelligence 全 
Engine: betago 
Administrator DoubleGotePanda m 


本 Pirate 


[a 





图 E-2 ”检查 机 器 人 的 账户 页 面 ， 碍 看 它 是 否 已 经 被 激活 





接 下 来 ， 退 出 <bot> 账 户 ， 重 新 登录 <human> 账 户 。 我 们 需要 用 它 
来 为 机 器 人 生成 API 密 钥 ， 而 这 件 事 只 能 由 管理 员 个 人 账户 来 做 。 登 
录 <human> 之 后 ， 找 到 <bot> 的 账户 信息 页 面 〈 例 如 ， 可 以 搜索 cbot> 
账户 并 点 击 进 入 ) ， 问 下 多 翻 几 页 ， 束 会 看 到 一 个 “Bot Controls”( 机 器 
人 控制 ) 框 ， 里 面包 含 一 个 “Generate API Key”( 生 成 API 密 钥 〉 按钮 。 








点 击 这 个 按钮 ， 生 成 API 密 钥 ， 接 着 点 击 “Save”( 保 存 ) 来 保存 它 。 在 
本 附录 后 面 的 内 容 中 ， 我 们 假设 API 符 钥 是 <api-keyy>。 


现在 我 们 已 经 在 OGS 做 好 了 设置 ， 接 下 来 机 器 人 就 可 以 用 这 个 名 称 
和 API 密 钥 连 接 OGS 了 。 


E.2 在 本 地 测试 OGS 机 器 人 


在 第 8 章 中 ， 我 们 开发 了 一 个 可 以 理解 和 发 送 GTP 命 令 的 机 器 人 。 
现在 我 们 已 经 在 OGS 上 建立 了 一 个 机 器 人 账户 ， 剩 下 的 事情 就 是 用 一 个 
叫 作 gtp2ogs 的 工具 把 这 两 者 联系 起 来 。 这 个 工具 会 使 用 机 器 人 名 称 和 
API 密 钥 ， 在 机 器 人 所 在 的 机 器 和 OGS 之 间 建 立 一 个 网 络 连 
接 。gtp2ogs 是 一 个 用 Node.js 开 发 的 开源 库 ， 可 以 从 OGS 的 官方 GitHub 
代码 库 下 载 。 不 过 ， 因 为 本 书 的 GitHub 代 码 库 中 存放 了 这 个 程序 的 副 
本 ， 读 者 并 不 需要 单独 下 载 并 安装 它 。 在 本 地 的 代码 副本 中 ， 读 者 应 该 
可 以 看 到 一 个 名 为 gtp2ogs.js 的 文件 ， 以 及 一 个 名 为 package.json 的 JSON 
文件 。 后 者 用 来 安装 依赖 库 ， 前 者 则 是 工具 本 刁 。 











在 向 OGS 部 署 机 器 人 的 时 候 ， 我 们 希望 这 个 机 器 人 能 够 长 时 间 服 务 
于 所 有 人 。 因 此 我 们 要 部 轩 一 个 长 期 运行 进程 。 这 样 的 话 ， 用 一 个 远程 
服务 器 来 托管 机 器 人 是 合理 的 ， 下 一 节 会 介绍 怎么 做 到 这 一 点 。 不 过 在 
此 之 前 ， 需 要 先 在 本 地 机 器 进行 快速 测试 ， 验 证 全 部 代码 是 否 运 行 正 
党 。 本 地 测试 前 请 确保 系统 中 安装 了 Node.js 和 它 的 包 管 理 器 npm。 在 多 
数 操作 系统 中 ， 都 可 以 用 相应 的 包 管 理 器 找到 它们 例如， 在 macOS 上 
可 以 运行 brew install node npm， 在 Ubuntu 上 可 以 运行 sudo apt- 











get install npm nodejs-legacy) 。 当 然 ， 你 也 可 以 从 Node.js 官 方 
网 站 上 下 载 并 手动 安装 这 两 个 工具 。 





接 下 来 ， 需 要 在 系统 路 径 上 执行 本 书 GitHub 代 码 库 顶层 目录 下 的 
Python 脚本 run_gtp.py。 在 Unix 环 境 的 命令 行 里 ， 可 以 执行 如 下 命令 : 


export PATH=/path/to/deep learning and the game of go/code:$PATH 


这 个 命令 把 run_gtp.py 放 到 系统 路 径 中 ， 这 样 就 可 以 在 命令 行 的 任 
何 地 方 直 接 调用 它 了 。 更 重要 的 是 ， 这 样 做 之 后 ，gtp2ogs 也 可 以 直接 调 
用 它 了 。 以 后 每 当 OGS 问 机 器 人 请 求 一 场 新 的 比赛 时 ，gtp2ogs 就 会 调用 
run_gtp.py 来 生成 一 个 新 机 器 人 人。 最 后 剩 下 的 工作 是 安装 必需 的 Node.js 
包 ， 并 运行 这 个 程序 。 我 们 将 使 用 Node.js 的 forever 包 来 确保 这 个 程序 一 
直 运 行 ， 并 且 在 出 现 错 误 的 时 候 能 够 自动 重启 : 








cd deep learning and the game of go/code 
npm install 


forever start gtp20gs.js \ 
--Username <bot> \ 


--apikey <api-key> \ 
--hidden \ 

--persist \ 
--boardsize 19 \ 
--debug -- run gtp.py 





让 我 们 把 这 个 命令 拆 开 解释 : 





。 --username 和 --apikey 用 来 指定 如 何 连 接 服务 器 ; 

。 --hidden 会 让 机 器 人 不 在 公众 机 器 人 列表 中 显示 ， 这 样 在 对 公众 
开放 之 前 就 有 机 会 先 测试 好 所 有 功能 ， 之 后 再 让 其 他 人 开始 挑战 这 
个 机 器 人 ; 





。 --persist 让 机 器 人 在 不 同 动作 之 间 保 持 运行 〈 人 否则 ，gtp2ogs 会 在 
每 次 需要 执行 一 步 动作 的 时 候 都 重启 机 器 人 ) : 

。 --boardsize 19 会 让 机 堪 人 限制 只 接收 19x19 棋 盘 的 比赛 ， 如 果 
机 器 人 是 用 9x9 棋 盘 (或 者 其 他 尺寸 ) 训练 的 ， 可 以 指定 为 相应 的 
尺寸 ; 

。 --debug 可 以 输出 更 多 的 输出 日 志 ， 更 清楚 地 看 到 机 器 人 的 运行 状 
机 器 人 启动 之 后 ， 可 以 访问 OGS 网 站 ， 登 录 chuman> 账 户 ， 并 点 击 

左 侧 的 目录 。 在 搜索 框 中 键入 机 器 人 名 称 ， 点 击 它 的 名 称 ， 接 着 点 
击 “Challenge”( 挑 战 ) 按钮 。 接 着 就 可 以 开启 一 局 与 机 器 人 的 对 诠 了 。 





如 果 你 现在 能 够 找到 自己 的 机 器 人 ， 那 么 基本 上 就 一 切 正 常 了 。 接 
下 来 就 可 以 与 自己 的 作品 进行 第 一 局 比赛 了 。 连 接 机 器 人 的 功能 测试 完 
成 之 后 ， 要 键入 forever stopall 来 关闭 用 来 运行 机 器 人 的 Node.js 程 
序 。 


E.3 将 OGS 机 右 人 部 普 到 AWS 上 


接 下 来 ， 我 们 会 展示 如 何人 免费 将 机 器 人 部 上 车 到 AWS 上 ， 这 样 全 世 
界 的 棋 手 都 可 以 随时 随地 与 它 进 行 对 弈 了 。 同 时 ， 再 也 不 需要 在 本 地 计 
算 机 上 运行 一 个 Node.js 程 序 了 。 


在 本 节 中 ， 我 们 假设 读者 已 经 按照 附录 D 设 置 好 了 SSH 配 置 ， 可 以 
直接 用 ssh aws 来 登录 自己 的 AWS 实 例 。 这 里 服务 器 实例 可 以 选择 很 基 
础 的 配置 ， 因 为 用 一 个 已 经 训练 好 的 深度 学 习 模 型 中 生成 预测 并 不 需要 








多 少 计算 力 。 实 际 上 ， 可 以 直接 在 AWS 的 免费 套餐 实例 中 选择 一 个 ， 
如 t2.micro。 但 如 果 严 格 按照 附录 DD 来 操作 ， 选 择 一 个 Ubuntu 系 统 的 深度 
学 习 AMI， 并 运行 在 2.small 类 型 的 实例 上 ， 那 就 不 是 完全 免费 的 。 不 过 
在 这 个 配置 下 ， 即 使 选择 在 OGS 上 一 直 保 持 机 器 人 运行 状态 ， 每 个 月 也 
只 会 花费 几 美 元 。 


在 本 书 的 GitHub 代 码 库 中 ， 读 者 可 以 找到 一 个 名 为 run_gtp_aws.py 
的 脚本 ， 如 代码 清单 E-1 所 示 。 它 的 第 一 行 以 #! 开 头 ， 会 告诉 Node.js 进 
程 用 哪 一 个 Python 程序 来 运行 机 器 人 。AWS 实 例 上 的 基础 Python 安装 应 
当 放 在 /usr/bin/python， 可 以 通过 在 终端 中 键入 which python 来 查看 。 
请 读者 确保 这 一 行 指 疝 的 Python 版 本 和 在 安装 dlgo 时 所 用 的 一 致 。 











代码 清单 E-1 run_gtp_aws.py 脚 本， 用 于 在 AWS 上 运行 一 个 机 器 人 来 连接 OGS 

















#!/usr/bin/python <--- 一 定 要 确保 这 一 行 与 实例 上 的 “which python” 输 出 一 致 
from dlgo.gtp import GTPFrontend 

from dlgo.agent.predict import load prediction agent 

from dlgo.agent import termination 

import h5py 


model file = h5py.File("agents/betago.hdf5", "r") 

agent = load prediction agent(model file) 

strategy = termination.get("opponent passes") 

termination agent = termination.TerminationAgent(agent, strategy) 


frontend = GTPFrontend(termination agent) 
frontend.run() 





这 个 脚本 会 从 文件 加 载 一 个 代理 ， 初 始 化 一 个 终 盘 策 略 ， 并 运行 一 
个 第 8 草 定 义 的 GTPFrontend 实 例 。 这 里 选择 的 代理 和 终 盘 策 略 只 作为 
演示 用 。 读 者 可 以 根据 上 自己 的 需求 修改 它们 ， 换 成 目 己 训练 的 模型 和 策 
略 。 但 符 只 是 要 熟悉 机 器 人 提交 流程 的 话 ， 读 者 可 以 移 不 改动 这 个 脚 





下 一 步 ， 需 要 保证 AWS 实 例 上 安装 好 了 所 有 依赖 ， 让 机 右 人 能 够 
成 功 运 行 。 让 我 们 从 零 开 始 ， 先 将 GitHub 代 码 库 克 隆 到 本 地 ， 再 复制 到 
AWS 实 例 上 ， 登 录 实 例 ， 并 安装 dlgo 包 。 


git clone https://github.com/maxpumperla/deep_ learning and the_game_of_go 
cd deep learning and the game of go 
scp -r ./code aws:~/code 


ssh aws 
cd ~/code 
python setup.py develop 





这 和 我 们 在 附录 D 中 从 头 到 尾 运 行 一 个 示例 所 采用 的 步骤 基本 一 
致 。 要 执行 forever 和 gtp2ogs 命 令 ， 还 需要 确保 Node.js 和 npm 也 安装 
好 了 。 在 AWS 实 例 上 用 apt 把 它们 安装 好 ， 就 可 以 用 与 本 地 相同 的 方式 
来 安装 gtp2ogs 了 。 
sudo apt install npm 
sudo apt install nodejs-legacy 


npm install 
sudo npm install forever -8 





最 后 一 步 是 使 用 gtp2ogs 来 运行 GTP 机 器 人 。 将 当前 工作 目录 export 
到 系统 路 径 上 ， 并 使 用 run_gtp_aws.py 作 为 机 器 人 启动 脚本 : 
PATH=/home/ubuntu/code:$PATH forever start gtp20gs.js \ 


--USsername <bot> \ 
--apikey <api-key> \ 


--persist \ 
--boardsize 19 \ 
--debug -- run gtp aws.py > log 2>&1 & 








注意 ， 这 里 把 标准 输出 和 错误 消息 重 定 向 到 了 一 个 名 为 log 的 日 志 


文件 中 ， 并 且 用 & 把 整个 程序 作为 背景 进程 局 动 。 这 样 ， 实 例 上 的 命令 
行 就 不 会 被 服务 器 日 志 所 渡 没 ， 让 你 可 以 继续 在 这 合 机 器 上 做 其 他 事 
情 。 和 本 地 测试 OGS 机 器 人 一 样 ， 现 在 应 该 可 以 访问 OGS， 并 与 机 器 人 
进行 对 春 了 。 如 果 有 地 方 出 错 ， 或 者 与 预期 并 不 一 致 ， 读 者 可 以 用 tail 
1o8g 来 检查 机 器 人 最 近 的 日 志 。 








这 样 就 完成 了 所 有 工作 。 虽 然 整个 工作 流程 的 设置 花费 了 不 少时 间 
(尤其 在 创建 AWS 实 例 和 设置 两 个 OGS 账 户 时 ) ， 但 当 所 有 基本 工作 
做 好 之 后 ， 再 部 普 机 器 人 就 是 一 个 相当 简便 的 操作 了 。 在 开发 好 一 个 新 

的 机 器 人 之 后 ， 想 要 部 获 它 时 ， 只 需要 这 么 做 : 


scp -r ./code aws:~/code 

ssh aws 

cd ~/code 

PATH=/home/ubuntu/code:$PATH node gtp20gs.js \ 


--USername “bot> \ 

--apikey <api-key> \ 

--persist \ 

--boardsize 19 \ 

--debug -- run gtp aws.py > log 2>&1 & 





现在 机 器 人 不 再 使 用 - -hidden 选 项 运行 ， 因 此 它 对 整个 服务 器 开 
放 挑 战 。 要 找到 自己 的 机 器 人 ， 登 录 <human> 账 户 ， 并 在 主 菜 单 中 点 
击 “Play”( 下 棋 〉 按钮 。 在 接 下 来 的 “Quick Match Finder”(〈 人 快速 匹配 搜 
索 器 ) ， 点 击 “Computer”( 计 算 机 ) 来 选择 一 个 机 器 人 。 机 器 人 <bot> 
应 当 会 显示 在 下 拉 菜 单 中 ， 并 且 它 的 角色 是 “AI Player” (AI 棋 手 ) 。 在 
图 E-3 中 可 以 看 到 我 们 开发 的 BetagoBot 机 器 人 。 现 在 ， 在 OGS 上 只 能 找 
到 少数 几 个 机 器 人 一 一 也 许 读者 可 以 自己 添加 一 个 有 趣 的 机 右 人 ? 











Master Mantis (13k) 

Kugutsu (8k) 

GnuGo (7k) 

Al PlayelvY BetagoBot (7k) Ranked 加 
Board Size 19x19 
DarkGo (5d) 

Game Speed Bifron (6d) Handicap one 
RoyalZero (7d) 
RoyalZeroSlow (7d) mm 
Eli MinusGo (8d) Your Color Au 
RoyalLeela (8d) 


Computer 


Privatq 


Time Contro 


Time Incremen’ 
Max Time 7 days 


Pause on Weekends 


Close 





图 E-3 机 器 人 应 当 能 够 在 OGS 的 匹配 搜索 器 中 作为 一 个 计算 机 对 手 显 示 出 来 了 


以 上 就 是 本 附录 的 全 部 内 容 。 读 者 现在 可 以 部 绒 一 个 从 涉 到 尾 的 机 
器 学 习 流 程 ， 并 得 到 一 个 可 以 在 线 上 围棋 平台 上 对 春 的 机 器 人 了 。 


